KI in der Justiz: Wie sich immer bedenklichere Fehler in US-Gerichte schleichen

Es ist keine abwegige Vorstellung, dass die Entscheidung eines Richters irgendwann von etwas beeinflusst wird, das eine KI frei erfunden hat, und niemand wird es bemerken.
(Bild: Phonlamai Photo/Shutterstock)
Eine Familie hatte einen KI-Avatar von einem Angehörigen erstellt, der von einem Verkehrsrowdy getötet worden war. So konnte der Verstorbene als digitales Abbild die zuvor durch die Hinterbliebenen festgelegten Worte an den Täter richten. Der Fall war definitiv eindrücklich, doch Rechtsexpert:innen zufolge köchelt eine größere und weitaus folgenreichere Kontroverse im KI-Einsatz für die Justiz: In Gerichtsakten tauchen immer häufiger KI-Halluzinationen auf und machen Richter:innen langsam wütend. Diese drei Fälle verdeutlichen, warum.
Google Gemini im Einsatz für Elitekanzlei – mit Folgen
Vor einigen Wochen interessierte sich der kalifornische Richter Michael Wilner für eine Reihe von Argumenten in einer Klageschrift. Als er versuchte, mehr über diese Argumente zu erfahren, indem er die von ihnen zitierten Publikationen nachverfolgte, stellten sich diese als nicht existent heraus. Er bat die zuständige Anwaltskanzlei um weitere Einzelheiten, und sie antwortete mit einem neuen Schriftsatz, der noch mehr Fehler enthielt als der erste. Wilner forderte die Anwälte auf, unter Eid auszusagen und die Fehler zu erläutern. Dabei erfuhr er, dass einer der Anwälte der Elitekanzlei „Ellis George“ Google Gemini sowie rechtsspezifische KI-Modelle verwendet hatte, um das Dokument zu verfassen, und das hatte zu den falschen Informationen geführt. Laut einer Eingabe vom 6. Mai belegte der Richter die Firma daraufhin mit einer Geldstrafe in Höhe von 31.000 US-Dollar.
Mitte Mai hat zudem ein Richter in Kalifornien eine weitere Halluzination in einer Gerichtsakte entdeckt, die das KI-Unternehmen Anthropic im Rahmen eines Rechtsstreits mit Plattenfirmen wegen Urheberrechtsfragen eingereicht hatte. Einer der Anwälte von Anthropic hatte das KI-Modell Claude des Unternehmens gebeten, eine Literaturquelle für einen juristischen Artikel zu erstellen, doch Claude gab den falschen Titel und Autor an. Der Anwalt von Anthropic räumte ein, dass der Fehler bei der Überprüfung des Dokuments niemandem aufgefallen sei.
Gerichte sind auf Korrektheit angewiesen
Der letzte und vielleicht besorgniserregendste Fall ereignete sich in Israel. Nachdem die Polizei eine Person unter dem Vorwurf der Geldwäsche verhaftet hatte, beantragte die israelische Staatsanwaltschaft bei einem Richter die Erlaubnis, das Telefon der Person als Beweismittel zu behalten. Sie beriefen sich jedoch auf Gesetze, die nicht existieren, woraufhin der Anwalt des Angeklagten sie beschuldigte, in ihrem Antrag Halluzinationen einer künstlichen Intelligenz verwendet zu haben. Laut israelischen Nachrichtenmedien gaben die Staatsanwälte das zu und erhielten vom Richter einen Rüffel.
Zusammengenommen weisen diese Fälle auf ein ernstes Problem hin. Gerichte sind auf korrekte und mit Zitaten untermauerte Dokumente angewiesen. Bei beiden Anforderungen versagen KI-Modelle, die von Anwälten zum Zeitsparen eingesetzt werden, bisher oft kläglich.
Auch wenn diese Fehler – vorerst – erkannt wurden, ist die Vorstellung nicht abwegig, dass die Entscheidung eines Richters irgendwann von etwas frei Erfundenem beeinflusst wird und niemand wird es bemerken.
Maura Grossman von der School of Computer Science der University of Waterloo und der Osgoode Hall Law School hat sich schon früh kritisch zu den Problemen geäußert hat, die generative KI für Gerichte mit sich bringt. Sie schrieb bereits 2023 über das Problem, als die ersten Fälle von Halluzinationen auftraten. Sie ging davon aus, dass bestehende Gerichtsvorschriften, die Anwält:innen dazu verpflichten, die von ihnen eingereichten Dokumente zu überprüfen, in Verbindung mit der schlechten Publicity, die diese Fälle auf sich zogen, dem Problem Einhalt gebieten würden. Das hat sich nicht bewahrheitet.
KI-Halluzinationen nehmen zu
Halluzinationen „scheinen nicht abgenommen zu haben“, sagt sie. „Wenn überhaupt, dann haben sie sich beschleunigt. Und das sind keine einmaligen Fälle mit obskuren lokalen Firmen.“ Es handelt sich um große Anwaltskanzleien, die mit KI erhebliche, peinliche Fehler machen. Sie befürchtet, dass solche Fehler auch immer häufiger in Dokumenten auftauchen, die nicht von Anwält:innen selbst verfasst wurden, zum Beispiel in Sachverständigengutachten. Erst im Dezember letzten Jahres hatte ein Stanford-Professor und KI-Experte zugegeben, KI-generierte Fehler in seine Aussagen eingebaut zu haben.
Die Fälle sind durchaus etwas überraschend, schließlich sind Anwälte von ihrer Diktion besessen und wählen ihre Worte sehr gezielt. Warum also werden so viele dabei erwischt, wie sie solche Fehler machen? „Anwälte lassen sich in zwei Lager einteilen“, sagt Grossman. „Die einen sind zu Tode erschrocken und wollen es überhaupt nicht nutzen.“ Dann gibt es aber auch die „Early Adopters“. Das sind Anwält:innen, die unter Zeitdruck stehen oder keine anderen Kolleg:innen haben, die ihnen bei einem Schriftsatz helfen. Besonders ihnen kommt eine Technologie entgegen, die ihnen beim Verfassen von Dokumenten unter Zeitdruck helfen kann. Doch leider sind ihre Kontrollen der KI-Arbeit nicht immer gründlich.
Die Tatsache, dass hochrangige Anwält:innen, deren Beruf es ist, Sprache zu prüfen, immer wieder bei KI-generierten Fehlern erwischt werden, sagt etwas darüber aus, wie die meisten von uns derzeit mit der Technologie umgehen. Dass KI-Modelle Fehler machen ist bekannt, aber Sprachmodelle fühlen sich auch ein bisschen wie Magie an. Man gibt eine komplizierte Frage ein und erhält eine scheinbar durchdachte, intelligente Antwort. Mit der Zeit entwickeln die KI-Modelle einen Anschein von Autorität und man beginnt, ihnen zu vertrauen.
„Wir rutschen alle irgendwie in diesen Vertrauensmodus“
„Weil diese großen Sprachmodelle so flüssig sind, nehmen wir an, dass sie auch genau sind“, sagt Grossman. „Wir rutschen alle irgendwie in diesen Vertrauensmodus, weil es so bestimmt klingt.“ Anwälte sind es gewohnt, die Arbeit von Junioranwält:innen und Praktikant:innen zu überprüfen, aber aus irgendeinem Grund, so Grossman, wenden sie diese Skepsis nicht auf KI an.
Das Problem ist bekannt, seit ChatGPT vor fast drei Jahren auf den Markt kam. Dennoch hat sich die empfohlene Lösung seither nicht wesentlich weiterentwickelt: Überprüfung. Da KI-Modelle in so viele verschiedene Tools integriert werden, ist es eine zunehmend unbefriedigende Antwort auf einen der grundlegendsten Fehler der KI.
In falsche Sicherheit gewiegt
Halluzinationen sind der Arbeitsweise großer Sprachmodelle inhärent. Trotzdem verkaufen Unternehmen Anwält:innen generative KI-Tools mit dem Versprechen der Zuverlässigkeit und der Genauigkeit. „Fühlen Sie sich sicher, dass Ihre Recherchen genau und vollständig sind“, heißt es auf der Website von Westlaw Precision, und die Website von CoCounsel verspricht, dass ihre KI ‚durch maßgebliche Inhalte gestützt wird‘. Das hat ihren Kunden, die Kanzlei „Ellis George“, nicht vor einer 31.000-Dollar-Geldstrafe bewahrt.
Es fühlt sich zunehmend so an, als müsste man Mitleid mit Menschen haben, die der KI mehr vertrauen, als sie sollten. Schließlich leben wir in einer Zeit, in der die Entwickler dieser Technologie uns sagen, dass KI so leistungsfähig ist, dass sie wie Atomwaffen behandelt werden sollten. Modelle haben aus fast jedem Wort gelernt, das die Menschheit jemals niedergeschrieben hat, und infiltrieren unser Online-Leben. Wenn die Menschen nicht alles glauben sollten, was KI-Modelle sagen, dann sollten sie von den Unternehmen, die sie entwickeln, vielleicht etwas häufiger daran erinnert werden.