Von AGI bis Zero-Shot: Die wichtigsten KI-Begriffe schnell erklärt

Künstliche Intelligenz ist bei Weitem kein neues Phänomen. Seit den 1950er Jahren forschen Wissenschaftler:innen zu Computersystemen, die auf Basis komplexer Algorithmen unterschiedlichste Aufgaben lösen können. Auch generative KI gibt es nicht erst seit ChatGPT, auch wenn das Thema seitdem deutlich mehr Aufmerksamkeit bekommt.
Mittlerweile hat die Diskussion um generative KI nahezu alle Bereiche unserer Gesellschaft erreicht. Und damit wird es auch immer wichtiger, die dazugehörigen Begriffe zu verstehen, um diese Diskussion zu verstehen und auch mitreden zu können. In unserem Glossar tragen wir relevante Fachbegriffe und Konzepte zusammen und erklären sie kurz und knapp.
AGI
Das in der Berichterstattung über generative KI allgegenwärtige Kürzel steht für Artificial General Intelligence. Damit sind meist zukünftige Sprachmodelle und andere KI-Algorithmen gemeint, die genauso klug oder klüger als Menschen sein und entsprechende Aufgaben genauso gut oder besser lösen sollen. Über die genaue Definition von AGI und wann diese erreicht sein wird, herrscht keine Einigkeit.
Chain of Thought und Reasoning
Die Chain-of-Thought-Methode ist einer der wichtigsten Bausteine der sogenannten Reasoning-Modelle. Wichtig ist dabei, dass solche KI-Chatbots entgegen ihrem Namen nicht wirklich vernunftbasiert arbeiten. Sie folgen immer noch ihren Trainingsdaten und den darin enthaltenen Mustern, legen die einzelnen Schritte allerdings offen und präsentieren diese ihren Nutzer:innen. Obwohl dieser Vorgang von Sprachmodellen als Denkprozess dargestellt wird, handelt es sich immer noch um die Berechnung von Wahrscheinlichkeiten.
Auf Basis der Chain-of-Thought-Methode können manche Reasoning-Modelle Prompts in kleinere Teilstücke unterteilen und intern beantworten, bevor die Teilantworten zu einer großen Antwort synthetisiert und ausgegeben werden. Wie das im Detail funktioniert, zeigt unsere Bildergalerie am Beispiel des chinesischen Reasoning-Modells Deepseek.
Deep Learning
Während Algorithmen beim maschinellen Lernen in vielen Fällen vorgefertigten Pfaden folgen, sich an Baumstrukturen entlang hangeln und Entwickler:innen die Lernprozesse manuell vorbereiten müssen, funktioniert Deep Learning auch ohne Vorsortierung. Deep-Learning-Algorithmen erkennen Muster in Trainingsdaten selbsttätig und können diese entsprechend gewichten. Dafür benötigen sie aber auch deutlich größere Datenschätze.
Destillation und Quantisierung
Die fortschrittlichsten Sprachmodelle werden immer größer und sind so ressourcenhungrig, dass Privatnutzer:innen sie häufig nur über die Web-Angebote von großen KI-Firmen zu Gesicht bekommen. Wer KI-Chatbots lokal ausführen will, greift häufig auf destillierte Modelle zurück.
Dabei werden große Modelle systematisch befragt und deren Antworten dafür genutzt, um kleinere Modelle feinzutunen. Die daraus resultierenden destillierten Modelle sind oft effizienter als die kleineren Modelle in ihrer nicht destillierten Grundform.
Eine andere Art der Komprimierung eines Ausgangsmodells ist die Quantisierung. Dadurch werden große Sprachmodelle weniger präzise, kommen aber auch mit weniger Ressourcen aus. Nur zu stark komprimierte Varianten sollte man nicht nutzen, eine Reduzierung von 32- oder 16-Bit-Modellen auf 4- bis 8-Bit ist je nach Ausgangsgröße und Einsatzzweck aber noch akzeptabel.
Embeddings
Embeddings helfen großen Sprachmodellen dabei, Gemeinsamkeiten in eingegebenen Sätzen zu ermitteln. Dazu wird zum Beispiel einem eingegebenen Prompt je nach der Zusammensetzung von Wörtern und deren Bedeutung eine Zahlenreihe als Vektor zugeordnet. Hat ein anderes Konstrukt einen ähnlichen Zahlenwert, ist es wahrscheinlich, dass es den gleichen Kontext hat. Das hilft zum Beispiel bei der semantischen Suche, auch wenn im Prompt kein entsprechendes Keyword vorkommt.
Fine-Tuning
Wenn ein fertig trainiertes Sprachmodell mit zusätzlichen Datensätzen für bestimmte Aufgaben verfeinert wird, spricht man von Fine-Tuning. Das ist zum Beispiel dann relevant, wenn sich um hochspezifische, besonders kritische Einsatzbereiche wie Forschung oder Fertigung handelt, bei denen Standard-Sprachmodelle nicht ausreichen. Auch eine Optimierung eines Grundmodells auf bestimmte Einsatzzwecke wie Coding bezeichnet man als Fine-Tuning.
GPT
GPT steht für Generative Pre-Trained Transformer und wurde durch eine Modellreihe bekannt gemacht, die vom KI-Startup OpenAI entwickelt wird. Auch wenn die Modelle selbst mittlerweile eher Kürzel tragen, ist OpenAIs Hauptprodukt ChatGPT nach dieser Art des großen Sprachmodells benannt.
Besonders der Begriff Generative ist hier relevant. Diese Modelle geben Inhalte nicht eins zu eins aus ihren Trainingsdaten wieder, sondern setzen ihren Output auf Basis von Mustern und Wahrscheinlichkeiten zusammen. Wie gut der ist, hängt von zahlreichen Faktoren wie Prompt-Struktur, Qualität der Trainingsdaten und Einsatzzweck ab.
Halluzinationen
Auch wenn man große Sprachmodelle als Algorithmen begreifen und sie nicht vermenschlichen sollte, hat sich der Begriff Halluzinationen für fehlerhafte Outputs eingebürgert. Bei Bildgeneratoren können Halluzinationen beispielsweise Menschen mit zwölf Fingern sein, bei Textmodellen sind es zum Beispiel vermeintliche faktische Aussagen, die sich schnell widerlegen lassen.
Fine-Tuning kann diesem Problem entgegenwirken. Aber da auch die modernsten Sprachmodelle noch halluzinieren, ist es elementar, dass die Outputs großer Sprachmodelle fachlich gegengecheckt werden.
KI-Agenten
Was einen KI-Agenten ausmacht, ist nicht genau definiert. Klar ist jedoch: Wenn ein KI-Chatbot nur auf seine Trainingsdaten zurückgreift, ist er kein Agent. Für manche wird er zum Agenten, wenn er über einen Tool-Aufruf beispielsweise das Internet durchsucht.
Die strikteste Definition wäre ein KI-Chatbot, der im Zusammenspiel mit anderen KI-Tools und regulären Programmen Aufgaben selbstständig erledigt. Als gängiges Beispiel hierfür gilt eine komplette Reiseplanung von der Buchung von Unterkunft und Transport über die Erstellung eines Reiseplans bis zu Reservierungen in Restaurants. In der Titelgeschichte der Ausgabe 80 des t3n Magazin (+) haben wir KI-Agenten von mehreren Seiten beleuchtet.
Mixture of Experts
Immer größer werdende Sprachmodelle brauchen immer mehr Ressourcen, damit sie effektiv ausgeführt werden können. Um dieser natürlichen Einschränkung Herr zu werden, setzen heutzutage viele Modelle auf die sogenannte Mixture-of-Experts-Methode. Dabei werden Sprachmodelle in viele kleinere Experten unterteilt, die von einem Orchestrator-System zusammengehalten werden.
Stellen Nutzer:innen Anfragen an ein Sprachmodell, wird nicht mehr das ganze Modell aktiviert, sondern nur noch relevante Experten, die auf ein bestimmtes Feld wie Coding oder kreatives Schreiben spezialisiert sind. Dadurch wird der Ressourcenverbrauch gesenkt. Auch KI-Agenten profitieren von diesem System, wenn die Prozesse und Resultate der Anfragen an unterschiedliche Experten zusammengefasst werden.
Prompt Engineering
Stellt man KI-Chatbots wie ChatGPT eine einfache Frage, erhält man zwar auch eine Antwort, die aber häufig ausbaufähig ist. Deswegen greifen erfahrene Nutzer:innen zur Technik des Prompt Engineering. Darunter versteht man die Anpassung eines Prompts, um bestmögliche Ergebnisse zu erzielen. Das kann sich auf die Struktur, das Einbauen von Beispielen, das Vorgeben einer Tonalität oder bestimmten Perspektive und das Festlegen von Dos and Don’ts beziehen.
RAG
Mittlerweile sind nahezu alle relevanten KI-Chatbots wie Claude, Copilot, Gemini oder ChatGPT an das Internet angebunden und können per Tool-Aufruf Web-Suchen ausführen. Vorher war der Output der großen Sprachmodelle auf das Wissen in ihren Trainingsdaten beschränkt, die aufgrund immer längerer Trainingszeiten nur Daten bis zu einem bestimmten Zeitpunkt enthalten. Dadurch waren KI-Tools in der Vergangenheit oft ungeeignet, wenn man Informationen zu aktuellen Entwicklungen gesucht hat oder die Antworten den neuesten Stand der Forschung enthalten sollten.
Schon damals ließ sich dieses Problem mit RAG, kurz für Retrieval Augmented Generation, abmildern. Darunter versteht man das Hochladen von Dokumenten, Videos oder Bildern, die dann dem Tool zur Verfügung gestellt werden. Aus den Texten beziehungsweise im Fall von audiovisuellen Medien den Metadaten oder eingebrannten Transkripten oder Untertiteln kann das jeweilige Modell zusätzliches Wissen ziehen.
Angebote wie NotebookLM, das wir ausführlich getestet haben, setzen hauptsächlich auf RAG.
(Großes) Sprachmodell/LLM
Während ChatGPT, Copilot, Claude, Mistral oder Perplexity die Nutzeroberfläche darstellen, sind große Sprachmodelle wie GPT eine Art „Muster-Datenbank“, an die die Anfragen aus den Applikationen weitergeleitet werden und die die Antworten generieren.
Wichtig: Die Generierung von Antworten erfolgt nach dem Wahrscheinlichkeitsprinzip. Wenn also ein KI-Chatbot einen Output präsentiert, ist dieser nicht zwangsweise richtig, sondern erst mal nur eine Aneinanderreihung von Wörtern, die häufig im selben Zusammenhang stehen.
Da die Trainingsdaten großer Sprachmodelle aller Wahrscheinlichkeit nach aus einem riesigen Fundus an Internetquellen stammen, können sich auch Unwahrheiten und faktische Fehler in die Antworten schleichen – je nachdem, wie häufig diese in den Trainingsdaten auftauchen.
Token
Um Prompts zu verarbeiten, zerlegen KI-Chatbots jede Eingabe in Einzelteile, die festgelegte Zahlenwerte haben, die sogenannten Token. Das können einzelne Buchstaben oder Zahlen sein, aber auch Silben oder Wörter. Weil unterschiedliche Modelle ein Token unterschiedlich definieren, sind manche KI-Chatbots besser für den Input in bestimmten Sprachen geeignet.
Denn jedes Modell hat eine Begrenzung, bis zu welcher Tokenanzahl eine Anfrage auch wirklich verarbeitet werden kann. Prompts in Sprachen, die für ein Konzept mehr „Platz“, also Tokens, benötigen, müssen potenziell kompakter formuliert sein, damit der Output eine ähnliche Qualität wie in einer Sprache mit „knapperen“ Formulierungen hat.
Transformer
Die wohl wichtigste Grundlage für alle modernen Sprachmodelle ist die Transformer-Architektur, die Google 2017 vorgestellt hat. Anders als bisherige Machine-Learning-Algorithmen können Transformer-Modelle beispielsweise eingegebene Sätze dynamisch analysieren, den Kontext erfassen und die Inhalte gewichten, anstatt sie Wort für Wort abzuarbeiten.
Dadurch arbeiten die Sprachmodelle präziser und die Ergebnisse sind besser. Effizientere maschinelle Übersetzung oder generative KI, wie man sie von ChatGPT und Co. kennt, wären ohne Transformer-Modelle nicht möglich.
Zero-Shot
Zero-Shot bezieht sich im Kontext von großen Sprachmodellen auf zwei Phänomene. Beim Zero-Shot Learning kann das Modell Aufgaben lösen, für die es kein explizites Beispiel in den Trainingsdaten gefunden hat. Die daraus resultierenden Ergebnisse sind rein wahrscheinlichkeitsbasiert und nicht immer genau. Beim One-Shot-Learning gibt es mindestens ein Beispiel in den Trainingsdaten, auf das sich das Modell beziehen kann. Das verbessert die Qualität des Outputs.
Das zweite Phänomen findet auf Prompt-Ebene statt. Wer einem KI-Chatbot eine Aufgabe stellt, ohne Beispiele für das gewünschte Ergebnis mitzuliefern, betreibt Zero-Shot-Prompting. Das Modell muss die Aufgabe also rein auf Basis seiner Trainingsdaten lösen. Liefert der:die Nutzer:in ein Beispiel mit, spricht man von One-Shot-, bei mehreren von Few-Shot-Prompting.
Generell kann es hilfreich sein, einem KI-Chatbot Beispiele mitzugeben, um den Output zu verbessern. Problematisch wird es nur, wenn man das Tool mit zu vielen Beispielen überfrachtet, da große Sprachmodelle oft nur eine begrenzte Menge an Input auf demselben Niveau verarbeiten können.