SLMs: Darum könnten kleine Sprachmodelle das nächste große Ding werden

Ein großes Sprachmodell muss nicht für jede Aufgabe die beste Option sein. Wie Quanta Magazine berichtet, richten Forscher:innen ihren Fokus zunehmend auf kleine Sprachmodelle, sogenannte SLMs, die bestimmte Aufgaben mit deutlich weniger Rechenaufwand effizient lösen können. Sie erregen zwar weniger mediales Aufsehen, könnten den Markt aber trotzdem nachhaltig prägen.
Groß ist nicht automatisch besser
Im Wettlauf um die KI-Vorherrschaft setzen Unternehmen wie OpenAI, Meta und Deepseek derzeit vor allem auf Größe. Ihre neuesten Modelle basieren auf Hunderten Milliarden von Parametern – und je mehr Parameter ein KI-Modell hat, desto besser ist es typischerweise dazu in der Lage, Muster und Zusammenhänge in den Daten zu erkennen und dadurch komplexe Aufgaben zu lösen. Diese Leistungsfähigkeit hat allerdings ihren Preis: Das Training großer Sprachmodelle (LLMs) erfordert enorme Rechenressourcen und verursacht entsprechend hohe Kosten. So soll Google allein für das Training seines Modells Gemini 1.0 Ultra rund 191 Millionen US-Dollar ausgegeben haben. Und auch im laufenden Betrieb bergen LLMs einige Nachteile: Die Modelle verbrauchen nämlich viel Energie.
Angesichts des enormen Ressourcenverbrauchs großer Modelle rücken kleinere KI-Modelle zunehmend in den Fokus. Diese sogenannten Small Language Models (SLMs) sind keine Allzwecklösungen, können aber bei spezifischen Aufgaben besonders effizient sein. Eine einheitliche Definition, ab wann es sich bei einem Sprachmodell um ein SLM handelt, gibt es nicht, aber viele von ihnen bewegen sich aktuell im Bereich von maximal 10 Milliarden Parametern. Ein zentraler Vorteil: Sie können meist direkt auf Laptops oder Smartphones verwendet werden und brauchen kein riesiges Rechenzentrum.
Was SLMs so besonders macht
Für das Training von SLMs machen sich KI-Forscher:innen einige Tricks zunutze. Einer davon wird auch als Wissensdestillation bezeichnet: Große KI-Modelle benötigen riesige Datenmengen. Diese stammen oft aus dem Internet, da hier große Mengen an Informationen frei zugänglich sind – allerdings können diese Daten ungeordnet oder von geringer Qualität sein. Dank ihrer großen Leistungsfähigkeit sind LLMs in der Lage, aus dieser Masse an Informationen hochwertige Datensätze zu erzeugen, die anschließend für das Training von SLMs genutzt werden können.
Ein weiterer Ansatz zur Entwicklung ressourcenschonender KI ist das sogenannte Pruning. Dabei werden große Modelle nach dem Training gezielt verkleinert, indem überflüssige oder ineffiziente Teile des neuronalen Netzes entfernt werden. Die Methode orientiert sich am menschlichen Gehirn, das im Laufe der Zeit ungenutzte Synapsenverbindungen kappt, um effizienter zu arbeiten. Durch dieses gezielte „Ausdünnen“ lassen sich kleinere Modelle erstellen, die weniger Rechenleistung benötigen – bei oft vergleichbarer Leistungsfähigkeit.
Weniger Kosten, mehr Effizienz
Klar ist: Große KI-Modelle werden auch künftig eine wichtige Rolle spielen – etwa bei komplexen Anwendungen wie multimodalen Chatbots, bei der Bildgenerierung oder in der medizinischen Forschung. Aber für viele alltägliche Anwendungsfälle sind kleinere, spezialisierte Modelle nicht nur ausreichend, sondern oft sogar die effizientere Wahl.
SLMs können zum Beispiel Gespräche zusammenfassen, als Chatbot im Gesundheitswesen dienen oder im Falle von smarten Gadgets bei der Datenerfassung helfen. Dabei lassen sie sich einfacher trainieren, benötigen weniger Ressourcen und sind leichter in bestehende Systeme integrierbar. Kein Wunder also, dass auch Tech-Giganten wie Google, Microsoft und OpenAI schon kompaktere Sprachmodelle entwickelt haben.
Sora – Das sind die besten Clips von OpenAIs Video-KI