KI-Agent gewinnt Ideenwettbewerb: Menschliche Experten müssen sich geschlagen geben

Eine Forscher-KI gibt es bereits, doch wie gut die Ideen tatsächlich sind, hat jetzt eine Studie untersucht. (Foto: PeopleImages.com – Yuri A /Shutterstock)
Dass KI-Agenten grundsätzlich selbstständig forschen können, ist längst keine Science-Fiction mehr. Das japanische Unternehmen Sakina AI veröffentlichte beispielsweise kürzlich eine KI, die angeblich eigenständig Experimente entwirft, um Hypothesen zu überprüfen, die Ergebnisse auswertet und daraus dann neue Vorschläge für weitere Forschung erzeugt. Allerdings gab es bisher noch keine systematische Untersuchung darüber, was die von den KIs erzeugten Ideen wirklich taugen. Chenglei Si, Diyi Yang und Tatsunori Hashimoto haben dazu jetzt eine umfangreiche Studie als Preprint Paper veröffentlicht.
Ideenwettbewerb: Mensch gegen Maschine
Sie rekrutierten 49 menschliche KI-Expert:innen, um Vorschläge für Forschungsvorhaben im Bereich der maschinellen Sprachverarbeitung (NLP) zu schreiben. Diese hatten zehn Tage Zeit, um ihre Vorschläge zu formulieren – für jeden eingereichten Vorschlag erhielten sie 300 US-Dollar. Zudem war eine Prämie von je 1000 Dollar für die fünf von den Gutachtern am höchsten bewerteten Ideen ausgeschrieben.
Außerdem engagierten die Forschenden 79 menschliche Expert:innen die eine Woche Zeit hatten, um bis zu sieben eingereichte Vorschläge zu bewerten. Dabei wussten die Gutachter:innen nicht, ob sie einen menschlichen oder einen KI-generierten Text bewerteten.
Worin die KI-Konzepte besser waren
Insgesamt schnitten die von der KI-generierten Konzepte etwas besser ab. Insbesondere wurden sie als „spannender“ als die von Menschen verfassten bewertet. Menschen, schreiben die Autor:innen in ihrem Paper, würden sich mehr auf aktuelle und wohlbekannte Probleme konzentrieren und hätten mehr die Durchführbarkeit ihrer Projekte im Kopf. Dementsprechend waren bei den KI-Vorschlägen auch die Bewertungen für die Durchführbarkeit schlechter als bei den Menschen.
Wie funktioniert ein KI-Ideengenerator?
Die KI, die sich so gut geschlagen hat, beruht im Wesentlichen auf dem großen Sprachmodell Claude 3.5 von Anthropic, das mit anderen Softwaremodulen zusammengeschaltet wurde. So erhielt der KI-Agent beispielsweise die Fähigkeit, mithilfe des Online-Dienstes Semantic Scholar schon veröffentlichte Artikel zu einem vorgegebenen Forschungsthema zu finden. Basierend auf den besten Ergebnissen dieser Papersuche formulierte das große Sprachmodell dann 4.000 offene, weitergehende Forschungsfragen zu dem Thema. Ein Bewertungsmodul fischte aus diesen 4.000 Vorschlägen dann jeweils die besten Ideen. Ein interessantes Ergebnis dieser Arbeit ist jedoch, dass die Zahl 4.000 offenbar viel zu hoch gegriffen war. In der Regel waren von den 4.000 Ideen nur rund 200 wirklich brauchbar.
Nächster Schritt: Ideen für KI-Tagung
Si und seine Kolleg:innen ließen ihren KI-Agenten auch Ideen für eine KI-Tagung erzeugen, die sie im Herbst mit den tatsächlich als am besten bewerteten Beiträgen dieser Tagung vergleichen wollen. Im nächsten Schritt überlegen sie auch, ihre KI Code schreiben zu lassen, um die vorgeschlagenen Hypothesen auch testen zu können. Ob sich die Methode auch auf andere Disziplinen außerhalb der KI-Forschung übertragen lässt, ist allerdings eine spannende Frage. Denn auch innerhalb der engen, fachspezifischen Grenzen konnte die KI zwar mitunter spannende Fragen aufwerfen. Vom Sinn und Mehrwert dieser Projekte waren die menschlichen Gutachter:innen aber des Öfteren nicht wirklich überzeugt.