Generative KI-Tools für das US-Militär: Das sind die Geheimdienstarbeiten in einer ersten Testphase

Die US-Marine hat generative KI zur Sichtung und Auswertung von Informationen aus offenen Quellen getestet und ist angetan von den Ergebnissen.
(Bild: Facebook/US-Navy)
2.500 US-Soldaten der 15th Marine Expeditionary Unit verbrachten den größten Teil des letzten Jahres an Bord von drei Schiffen im Pazifik, um in den Gewässern vor Südkorea, den Philippinen, Indien und Indonesien Übungen durchzuführen. Zur gleichen Zeit fand an Bord der Schiffe ein Experiment statt: Die Marineinfanteristen der Einheit, die für die Auswertung ausländischer Informationen und die Unterrichtung ihrer Vorgesetzten über mögliche lokale Bedrohungen zuständig ist, setzten zum ersten Mal generative Künstliche Intelligenz (KI) ein und testeten ein KI-Tool, das vom Pentagon finanziert wurde.
Zwei Offiziere berichteten MIT Technology Review, dass sie das neue System verwendet haben, um Tausende von Informationen aus offenen Quellen – also nicht geheime Artikel, Berichte, Bilder und Videos – zu durchsuchen, die in den verschiedenen Ländern gesammelt wurden. Dies sei viel schneller als mit der alten Methode der manuellen Analyse gegangen.
Geheimdienstberichte und Übersetzungen: Wofür das Militär KI nutzt
Kapitänin zur See Kristin Enzenauer beispielsweise sagt, dass sie große Sprachmodelle verwendet hat, um ausländische Nachrichtenquellen zu übersetzen und zusammenzufassen, während Kapitän zur See Will Lowdon mithilfe von KI die täglichen und wöchentlichen Geheimdienstberichte verfasst hat, die er seinen Befehlshabern vorlegte. „Wir müssen die Quellen noch validieren“, sagt Lowdon. Aber die Befehlshaber der Einheit ermutigten den Einsatz von großen Sprachmodellen, sagt er, „weil sie in einer dynamischen Situation viel effizienter sind.“
Die generativen KI-Werkzeuge wurden von der Verteidigungstechnologie-Firma Vannevar Labs entwickelt. Diese hatte im November von der auf Startups ausgerichteten „Defense Innovation Unit“ des Pentagons einen Produktionsauftrag im Wert von bis zu 99 Millionen US-Dollar erhalten, um ihre Intelligenztechnologie in mehr Militäreinheiten zu bringen.
Hinweis: Dieser Podcast wird durch Sponsorings unterstützt. Alle Infos zu unseren Werbepartnern findest du hier.
Das Unternehmen, das 2019 von Veteranen der CIA und der US-Geheimdienst-Community gegründet wurde, gehört wie Palantir, Anduril und Scale AI zu den großen Nutznießern der großen Akzeptanz für künstliche Intelligenz durch das US-Militär. Die gilt nicht nur für physische Technologien wie Drohnen und autonome Fahrzeuge, sondern auch für Software, die die Art und Weise revolutioniert, wie das Pentagon Daten für die Kriegsführung und Überwachung sammelt, verwaltet und interpretiert.
Zwar entwickelt das US-Militär bereits seit 2017 Computer-Vision-Modelle und ähnliche KI-Werkzeuge, wie sie etwa in „Project Maven“ zum Einsatz kommen. Trotzdem stellt der Einsatz generativer KI, die wie die von Vannevar Labs entwickelte KI eine menschenähnliche Konversation führen können, eine neuere Entwicklung dar.
Terabytes von Daten in 80 verschiedenen Sprachen pro Tag in 180 Ländern abgesaugt.
Vannevar Labs wendet bestehende große Sprachmodelle, darunter einige von OpenAI und Microsoft, sowie einige maßgeschneiderte eigene Modelle auf Unmengen von Open-Source-Daten an, die das Unternehmen seit 2021 gesammelt hat. Das Ausmaß, in dem diese Daten gesammelt werden – und ein großer Teil dessen, was Vannevars Produkte von anderen unterscheidet – ist schwer nachzuvollziehen: Terabytes von Daten in 80 verschiedenen Sprachen werden jeden Tag in 180 Ländern abgesaugt.
Auch nicht klassifizierte Daten, die online nur schwer zugänglich sind
Das Unternehmen ist nach eigenen Angaben in der Lage, Social-Media-Profile zu analysieren und Firewalls in Ländern wie China zu durchbrechen, um an schwer zugängliche Informationen zu gelangen. Es nutzt auch nicht klassifizierte Daten, die online nur schwer zugänglich sind (und von menschlichen Mitarbeitern vor Ort gesammelt werden), sowie Berichte von physischen Sensoren, die verdeckt Funkwellen überwachen, um illegale Versandaktivitäten zu erkennen.
Vannevar erstellt dann KI-Modelle, um Informationen zu übersetzen, Bedrohungen zu erkennen und die politische Stimmung zu analysieren, wobei die Ergebnisse über eine Chatbot-Schnittstelle bereitgestellt werden, die ChatGPT nicht unähnlich ist. Ziel ist es, den Kunden kritische Informationen zu so unterschiedlichen Themen wie internationalen Fentanyl-Lieferketten und Chinas Bemühungen, sich seltene Erdmineralien auf den Philippinen zu sichern, zu liefern.
Für den US-Geheimdienstapparat besonders attraktiv
„Unser eigentliches Ziel als Unternehmen“, so Scott Philips, Chief Technology Officer von Vannevar Labs, „ist es, Daten zu sammeln, diese Daten sinnvoll zu nutzen und den USA zu helfen, gute Entscheidungen zu treffen.“ Dieser Ansatz ist für den US-Geheimdienstapparat besonders attraktiv, denn seit Jahren wird die Welt von mehr Daten überschwemmt, als menschliche Analysten interpretieren können – ein Problem, das 2003 zur Gründung von Palantir beitrug. Das Unternehmen mit einem Marktwert von über 200 Milliarden Dollar ist für seine leistungsstarken und umstrittenen Tools bekannt, darunter eine Datenbank, die der Einwanderungs- und Zollbehörde hilft, Informationen über Einwanderer ohne Papiere zu suchen und zu verfolgen.
2019 sah Vannevar eine Möglichkeit in den großen Sprachmodellen, die damals neu auf der Bildfläche erschienen, um sie als neuartige Lösung für das Datenproblem zu nutzen. Die Technologie könnte KI in die Lage versetzen, nicht nur Daten zu sammeln, sondern tatsächlich mit jemandem interaktiv eine Analyse durchzusprechen.
Die Tools von Vannevar erwiesen sich für den Einsatz im Pazifik als nützlich, und Enzenauer und Lowdon sagen, dass sie zwar angewiesen waren, die Arbeit der KI stets zu überprüfen, aber Ungenauigkeiten nicht als ein großes Problem empfanden. Enzenauer nutzte das Tool regelmäßig, um alle ausländischen Nachrichtenberichte zu verfolgen, in denen die Übungen der Einheit erwähnt wurden, und um eine Stimmungsanalyse durchzuführen, um die in einem Text ausgedrückten Emotionen und Meinungen zu erkennen. Die Beurteilung, ob ein ausländischer Nachrichtenartikel eine bedrohliche oder freundliche Meinung gegenüber der Einheit widerspiegelt, war eine Aufgabe, die sie bei früheren Einsätzen manuell erledigen musste.
„Die Daten wurden größtenteils per Hand recherchiert, übersetzt, kodiert und analysiert“, sagt sie. „Das war definitiv viel zeitaufwändiger als bei der Verwendung der KI.“ Dennoch, so Enzenauer und Lowdon, hatte die Technik sozusagen Schluckauf, wie er bei den meisten digitalen Tools auftritt: Die Schiffe hatten die meiste Zeit nur sporadische Internetverbindungen, was die Geschwindigkeit, mit der das KI-Modell fremde Informationen synthetisieren konnte, einschränkte, insbesondere wenn es sich um Fotos oder Videos handelte.
Experiment von KI im Militär sei „die Spitze des Eisbergs“
Nach Abschluss dieses ersten Tests im Februar sagte der kommandierende Offizier der Einheit, Colonel Sean Dynan, in einem Telefongespräch mit Reporter:innen, dass eine stärkere Nutzung generativer KI bevorstehe. Dieses Experiment sei „die Spitze des Eisbergs“.
Dies ist in der Tat die Richtung, auf die das gesamte US-Militär mit voller Geschwindigkeit zusteuert. Im Dezember erklärte das Pentagon, dass es in den nächsten zwei Jahren 100 Millionen Dollar für Pilotprojekte speziell für generative KI-Anwendungen ausgeben wird. Neben Vannevar arbeitet es auch mit Microsoft und Palantir zusammen, die gemeinsam an KI-Modellen für die Nutzung geheimer Daten arbeiten. Die USA sind mit diesem Ansatz nicht allein. Insbesondere Israel hat in seinem Gaza-Krieg KI eingesetzt, um Informationen zu sortieren und sogar Listen von Zielen zu erstellen – eine Praxis, die weithin kritisiert wurde.
LLMs seien vor allem bei sicherheitskritischen Anwendungen sehr ungenau
Es überrascht vielleicht nicht, dass viele Menschen außerhalb des Pentagons vor den potenziellen Risiken dieses Plans warnen, darunter Heidy Khlaaf, die leitende KI-Wissenschaftlerin der Forschungsorganisation „AI Now Institute“ und Expertin für die Durchführung von Sicherheitsaudits für KI-gestützte Systeme. Sie sagt, dass die Eile, generative KI in die militärische Entscheidungsfindung einzubinden, weitere grundlegende Schwächen der Technologie ignoriert: „Wir wissen bereits, dass LLMs sehr ungenau sind, vor allem im Zusammenhang mit sicherheitskritischen Anwendungen, die Präzision erfordern.“
Khlaaf fügt hinzu, dass, selbst wenn Menschen die Arbeit der KI „überprüfen“, es wenig Grund zu der Annahme gibt, dass sie in der Lage sind, jeden Fehler zu erkennen. „Human-in-the-Loop‘ ist nicht immer eine sinnvolle Verbesserung“, sagt sie. Wenn sich ein KI-Modell auf Tausende von Datenpunkten stützt, um zu Schlussfolgerungen zu gelangen, „wäre es für einen Menschen nicht wirklich möglich, diese Menge an Informationen zu sichten, um festzustellen, ob die KI-Ausgabe fehlerhaft war“.
Stimmungsanalyse: Durch falsche Analyse ist unnötige Eskalation möglich
Ein spezieller Anwendungsfall, der ihr Sorgen bereitet, ist die Stimmungsanalyse, die ihrer Meinung nach „eine höchst subjektive Metrik ist, die selbst Menschen nur mit Mühe auf der Grundlage von Medien angemessen beurteilen könnten“. Wenn die KI eine Feindseligkeit gegenüber den US-Streitkräften wahrnimmt, die ein menschlicher Analytiker nicht wahrnehmen würde – oder wenn das System eine Feindseligkeit übersieht, die tatsächlich vorhanden ist –, könnte das Militär eine falsch informierte Entscheidung treffen oder eine Situation unnötig eskalieren.
Die Stimmungsanalyse ist in der Tat eine Aufgabe, die die KI noch nicht perfektioniert hat. Vannevars CTO Philips zufolge hat das Unternehmen spezielle Modelle entwickelt, um zu beurteilen, ob ein Artikel pro-USA ist oder nicht. MIT Technology Review war allerdings nicht in der Lage, diese Technik zu bewerten.
Chris Mouton, ein leitender Ingenieur bei RAND, hat kürzlich getestet, wie gut generative KI für diese Aufgabe geeignet ist. Er bewertete führende Modelle wie GPT-4 von OpenAI und eine ältere Version von GPT, die für derartige Intelligenzaufgaben optimiert wurde, danach, wie genau sie im Vergleich zu menschlichen Experten ausländische Inhalte als Propaganda kennzeichnen. „Es ist schwierig“, sagt er und stellt fest, dass die KI Schwierigkeiten hat, subtilere Arten von Propaganda zu erkennen. Aber er fügt hinzu, dass die Modelle auch bei vielen anderen Analyseaufgaben nützlich sein könnten.
Fragwürdige Open-Source-Daten
Eine weitere Einschränkung von Vannevars Ansatz besteht laut Khlaaf darin, dass der Nutzen von Open-Source-Intelligence fragwürdig ist. Mouton sagt, dass Open-Source-Daten „ziemlich außergewöhnlich“ sein können, aber Khlaaf weist darauf hin, dass sie im Gegensatz zu geheimen Informationen, die durch Aufklärung oder Abhörmaßnahmen gesammelt werden, dem offenen Internet ausgesetzt sind, was sie viel anfälliger für Fehlinformationskampagnen, Bot-Netzwerke und absichtliche Manipulationen macht, wie die US-Armee selbst gewarnt hat.
Für Mouton besteht die größte offene Frage darin, ob diese generativen KI-Technologien nur ein Ermittlungsinstrument unter vielen sein werden, das Analyst:innen einsetzen, oder ob sie die subjektive Analyse liefern werden, auf die man sich bei der Entscheidungsfindung verlässt und der man vertraut. „Das ist die zentrale Debatte“, sagt er.
Alle sind sich darin einig, dass KI-Modelle leicht verfügbar sind. Man kann ihnen einfach eine Frage zu komplexen Informationen stellen, und sie antworten in einfacher Sprache. Aber es ist immer noch umstritten, welche Unzulänglichkeiten im Namen der Effizienz akzeptiert werden können.