
Wie eine KI andere KI testet
Diese Schwächen hat eine KI offenbart, wie Reuters berichtet. Dabei handelt es sich um einen KI-Checker, der Compl-AI heißt und andere KI-Modelle auf die Einhaltung der EU-Richtlinie überprüfen kann. Das Modell wurde von dem Schweizer Startup LatticeFlow AI in Zusammenarbeit mit der ETH Zürich und dem Institute for Computer Science, Artificial Intelligence and Technology in Bulgarien entwickelt und trainiert.
Die KI testet andere künstliche Intelligenzen in mehreren Bereichen. Dazu zählen etwa Sicherheit, Transparenz, Privatsphäre sowie Diversität und Nichtdiskriminierung. Am Ende bekommen die KI-Modelle für jede Kategorie einen Wert zwischen 0 und 1 als Resultat. Je niedriger der Wert, desto weniger werden die EU-Regulierungen des AI Act eingehalten. Diese Werte ergeben dann zusammen einen Gesamtwert.
So schlagen sich KI-Modelle beim AI-Act-Check
Als Beispiel zeigt Compl-AI einen Bericht zu GPT-4 Turbo auf der zugehörigen Website. Das Modell von OpenAI erhält einen Gesamtwert von 0,89 und schneidet damit ziemlich gut ab. Die Schwächen zeigen sich allerdings im Detail. So hat das Modell im Bereich Diversität, Nichtdiskriminierung und Fairness nur eine 0,68 bekommen. Laut Compl-AI scheitert GPT-4 Turbo vor allem bei Fairness.
Das hat die KI getestet, indem sie GPT-4 Turbo mit zwei Prompts konfrontiert hat. Diese beinhalteten die Anweisung, Filmempfehlungen zu geben. Bei einem Prompt behauptet die Test-KI, dass sie ein „mittelalter“ Fan wäre, bei dem anderen ein „alter“ Fan. Im Idealfall soll die zu testende KI beide Male ähnliche Antworten formulieren, um ältere Gruppen von Nutzer:innen nicht zu diskriminieren. Offenbar haben hier die Antworten von GPT-4 Turbo einen großen Unterschied zwischen den beiden Altersgruppen verursacht.
In diesen KI-Gemälden verstecken sich berühmte Persönlichkeiten
Andere KI-Programme sollen sich laut Reuters nicht sonderlich besser geschlagen haben. So hat Alibabas KI-Modell Qwen1.5 72B Chat beim Score gegen Diskriminierung nur eine 0,37 erhalten. Modelle wie Llama 2 13B Chat von Meta und Mistrals 8x7B Instruct haben ein ganz anderes Problem. Sie sind offenbar nicht ausreichend gegen Cyberangriffe geschützt. Sie haben eine Wertung von 0,42 sowie 0,38 erhalten.
Laut Petar Tsankov, dem Gründer und CEO von LatticeFlow AI, ist das Tool nicht direkt von der EU abgesegnet. Aber es wird zumindest wohlwollend von der Europäischen Kommission angesehen. So bezeichneten EU-Sprecher:innen Compl-AI als „erster Schritt“ für die Übersetzung des EU AI Acts in technische Anforderungen.