Das Claude-Kollektiv: So hat Anthropic seine Multi-Agenten-KI gebaut

Der OpenAI-Wettbewerber Anthropic aus San Francisco im US-Bundesstaat Kalifornien hat einen bemerkenswert tiefen Einblick in die Architektur seines neuen „Research“-Features für das Sprachmodell Claude gewährt. In einem detaillierten Blogbeitrag erläutern die Entwickler:innen, wie sie ein System aus mehreren kooperierenden KI-Agenten konstruiert haben. Dieses soll Aufgaben lösen, an denen ein einzelner Agent scheitern würde.
Der Ansatz bricht mit der linearen Arbeitsweise bisheriger Systeme. Statt einer einzelnen Anfrage, die sequenziell abgearbeitet wird, nutzt Anthropic ein sogenanntes Orchestrator-Worker-Muster.
Ein Dirigent für viele kleine Experten
Stellt euch einen leitenden Agenten („Lead-Agent“) vor, der eine komplexe Nutzer:innenanfrage zunächst analysiert und in mehrere Teilaufgaben zerlegt. Für jede dieser Teilaufgaben erzeugt er dann spezialisierte Unter-Agenten („Sub-Agents“), die parallel und unabhängig voneinander an die Arbeit gehen.
Diese Sub-Agenten nutzen Werkzeuge wie die Websuche, um Informationen zu sammeln, filtern die Ergebnisse und fassen die Essenz für den Haupt-Agenten zusammen. Laut Anthropic führt diese Parallelisierung zu einer enormen Leistungssteigerung. In internen Evaluationen habe das Multi-Agenten-System ein einzelnes, ansonsten identisches Top-Modell um über 90 Prozent übertroffen.
Leistung hat ihren Preis
Der Grund für die höhere Leistung ist laut der Analyse von Anthropic vor allem auf einen Faktor zurückzuführen: die schiere Menge an Rechenleistung. Das System verbraucht ein Vielfaches an Tokens, der „Währung“ für die Nutzung von KI-Modellen.
Hier liegt auch die zentrale Schattenseite des Ansatzes. Ein Multi-Agenten-System verbraucht laut Anthropic etwa 15-mal mehr Tokens als eine gewöhnliche Chat-Interaktion. Damit seien solche Systeme nur für Aufgaben wirtschaftlich tragfähig, deren Wert den massiv erhöhten Aufwand rechtfertigt.
Die Entwickler räumen zudem ein, dass sich die Architektur nicht für alle Probleme eignet. Insbesondere Aufgaben, bei denen alle Arbeitsschritte voneinander abhängen, wie es oft beim Programmieren der Fall ist, seien für diesen parallelen Ansatz weniger passend.
Lektionen aus der Werkstatt
Der Weg vom Prototyp zum produktiven System war für die Entwickler:innen bei Anthropic lehrreich. Sie teilen einige ihrer wichtigsten Erkenntnisse, die für alle Teams, die an KI-Anwendungen arbeiten, von hohem Wert sein dürften.
Ein entscheidender Hebel sei das Prompt-Engineering. Der Haupt-Agent musste lernen, wie ein:e gute:r Manager:in zu delegieren: mit klaren Zielen, exakten Aufgabenbeschreibungen und definierten Grenzen für die Sub-Agenten. Andernfalls würden die Agenten die Arbeit ihrer Kollegen duplizieren oder sich in Details verlieren.
Ebenso kritisch sei das Design der Werkzeuge. Eine unklare Beschreibung eines Tools könne einen Agenten auf eine völlig falsche Fährte locken. Anthropic ging sogar so weit, einen eigenen KI-Agenten darauf anzusetzen, die Beschreibungen der Werkzeuge zu testen und zu optimieren. Dieser Prozess habe die Effizienz bei der Tool-Nutzung um 40 Prozent verbessert.
Evaluierung und Produktion im KI-Zeitalter
Die Bewertung der Ergebnisse stellt eine besondere Herausforderung dar. Da die Agenten nicht bei jedem Durchlauf den exakt gleichen Weg zum Ziel nehmen, kann man nicht den Prozess, sondern nur das Endergebnis bewerten. Hierfür setzt Anthropic ebenfalls auf eine KI, einen „LLM-as-a-Judge“, der die Resultate anhand einer festen Rubrik wie Fakten- und Zitatentreue benotet. Dennoch bleibe die manuelle Kontrolle durch Menschen unverzichtbar, um Fehler zu finden, die automatisierte Systeme übersehen.
Für den stabilen Betrieb solcher komplexen, zustandsbehafteten Systeme mussten neue technische Lösungen her. Da ein kleiner Fehler einen Agenten komplett aus der Bahn werfen kann, implementierte das Team robuste Wiederaufnahme-Mechanismen. Um bei Updates keine laufenden Prozesse zu unterbrechen, werden sogenannte „Rainbow Deployments“ eingesetzt, bei denen alte und neue Systemversionen für eine Übergangszeit parallel existieren.
Damit ist der offene Bericht von Anthropic weit mehr als nur eine Produktankündigung und sollte von KI-Interessierten jedenfalls gelesen werden. Er ist ein fundierter Leitfaden, der die erheblichen Hürden, aber auch das immense Potenzial auf dem Weg zu fähigeren, agentischen KI-Systemen aufzeigt. Er macht deutlich, dass der Fortschritt in der künstlichen Intelligenz zunehmend eine Frage der intelligenten Orchestrierung und nicht nur der Größe einzelner Modelle ist.