Vielleicht ist es gar nicht möglich, nur mithilfe von Fragen und Antworten, anhand von Input und Output, zu entscheiden, ob jemand – oder etwas – wirklich intelligent ist oder nur so tut.
1980 schilderte der US-Philosoph John Searle erstmals ein Gedankenexperiment, das sehr für dieses Argument spricht – das „Chinesische Zimmer“. In dem gedachten Zimmer sitzt ein Mensch, der mit der Außenwelt nur durch einen Schlitz in der Tür kommunizieren kann. Ab und zu steckt jemand einen Zettel mit chinesischen Schriftzeichen in diesen Schlitz. Der Mensch in dem Zimmer – des Chinesischen nicht mächtig – zieht nun ein dickes Buch mit Regeln zurate, in dem steht: Wenn dieses Zeichen auftaucht, male jenes Zeichen auf ein Antwortpapier. Diese Antwort steckt er in den Ausgabeschlitz. Dieser Mechanismus, so Searle, erlaube, auf chinesisch geschriebene Texte in perfektem Chinesisch zu antworten, ohne auch nur den Hauch von Verständnis für die chinesische Sprache zu besitzen.
Eigentlich wollte Searle damit beweisen, dass klassische KI-Systeme, die auf der Verarbeitung abstrakter Symbole beruhen – und damit nach genau diesem Prinzip arbeiten –, komplexe Denkaufgaben lösen können, ohne irgendetwas zu verstehen. Doch das Argument ist schwach, denn es gilt erstens nur für diese klassischen, symbolverarbeitenden KI. Und zweitens belegt es streng genommen nur, dass man anhand des Outputs, den die Maschine abliefert, nichts über ihre innere Funktion sagen kann.
„In der Sprache selbst steckt Wissen“
„Was heißt denn Verständnis?“, fragt Melanie Mitchell vom Santa Fe Institute. Die Komplexitätsforscherin arbeitet bereits seit den 1990ern an Computermodellen der menschlichen Kognition. „Es bedeutet, eigenes Wissen in der jeweiligen Situation richtig zu nutzen. In gewisser Weise tun das diese Modelle und in gewisser Weise tun sie es nicht.“ Und obwohl sie selbst ein Paper zum akademischen Streit um die Intelligenz großer Sprachmodelle geschrieben hat, ergänzt sie: „Ich glaube, die Frage, ob Modelle etwas verstehen, ist nicht sinnvoll.“
Es sei jedoch durchaus möglich, dass in der „inneren Repräsentation“ – der Art und Weise, wie die großen Sprachmodelle das antrainierte Wissen verarbeiten – nicht ausschließlich statistische Beziehungen zwischen Wörtern stecken, denn „in der Sprache selbst steckt Wissen“. Aus dem Zusammenspiel einzelner Fallbeispiele könnten die Modelle so abstraktere Zusammenhänge, „Konzepte“, ableiten.
Ob und, wenn ja, wie das passiert, sei jedoch noch vollkommen unklar, sagt Mitchell. Sie selbst arbeitet in ihrer eigenen Forschung mit visuellen Modellen. In einer einfachen „Gitter-Welt“ lässt sie diese Modelle dabei zusehen, wie die Gitter sich nach bestimmten Regeln verformen und sich das Bild, das sie ergeben, verändert. „Unsere Frage ist dann: Können die Modelle lernen, nach welchem Muster das vonstattengeht?“ Doch die Antwort lautet oft noch immer: Nein. Die Aufgabe sei „sehr herausfordernd“.
Psychologie und KI
Andere Forscher:innen wie beispielsweise Eric Schulz vom Max-Planck-Institut für biologische Kybernetik in Tübingen rücken Sprachmodellen mit psychologischen Methoden zu Leibe. Gemeinsam mit seinem Kollegen Marcel Binz hat er GPT-3 einer Reihe von kognitiven Tests unterzogen, mit denen Psychologen normalerweise zum Beispiel den Entwicklungsstand von Kindern testen.
„Psychologen haben sich schon immer dafür interessiert, was in den Köpfen von Menschen vor sich geht“, sagt Schulz. „Und Menschen sind letztendlich auch nur Black Boxen. GPT-3 war also prinzipiell nichts anderes.“ Standard-Tests sind beispielsweise „Two Step Tasks“, Aufgaben, die aus zwei logischen Blöcken bestehen, die kombiniert werden müssen. „Stellen Sie sich vor, Sie hätten eine Maschine, mit der Sie zu Planet A oder Planet B reisen könnten, um mit den Aliens dort zu handeln. Manchmal funktioniert die Maschine aber nicht richtig. Als Sie zu Planet A wollen, kommen Sie bei Planet B an. Sie handeln und bekommen eine fette Belohnung. Was ist der nächste Schritt?“
Ein Modell, das ohne Kontext lernt, versucht den glücklichen Zufall noch einmal zu wiederholen, also erneut zu Planet A zu reisen. Nur wer den Zusammenhang versteht, reist gleich zu Planet B, weil es dort die Belohnung gab. „GPT-3 war im Two Step Task überraschend gut“, sagt Schulz. „Das deutet darauf hin, dass es ein einfaches Modell der Welt bilden und danach handeln kann.“
Empfehlungen der Redaktion
Ging es darum, den Zusammenhang zwischen Ursache und Wirkung zu erkennen, scheiterte das Programm jedoch. Dafür präsentierten die Forscher:innen der Maschine etwa folgende Geschichte: „Ich habe drei Knöpfe, die leuchten oder nicht leuchten. In einem Fall sind die Knöpfe so geschaltet, dass B leuchtet, wenn ich A drücke, und C leuchtet, wenn ich B drücke. Im zweiten Fall leuchten, wenn ich A drücke, B und C; wenn ich B drücke nur C. Wie kann ich herausfinden, wie die Knöpfe gerade geschaltet sind?“ Menschen, sagt Schulz, kämen recht schnell darauf, dass sie „aktiv intervenieren“ müssen – eine Variable im Spiel verändern, indem sie zum Beispiel die Birne von Knopf B herausdrehen und A drücken. „Wenn dann C angeht, weiß ich, dass es sich um Szenario zwei handelt. Menschen können das, auch Kinder können das schon, GPT-3 nicht“, sagt Schulz.
GPT-3 geht auf Nummer sicher
Ein weiteres klassisches Problem dieser Art ist der „Two Armed Bandit“. Das sind zwei fiktive Spielautomaten, die nebeneinander hängen und unterschiedliche Gewinnchancen haben. Um herauszufinden, wie der Gewinn optimiert werden kann, gibt es grundsätzlich zwei verschiedene Strategien: So lange beide Automaten testen, bis einigermaßen sicher ist, welcher Automat die höheren Gewinnchancen bietet. Oder bereits nach kurzer Zeit an dem Automaten bleiben, der gerade zufällig mehr Gewinn ausgeschüttet hat. GPT-3 geht in diesem Fall auf Nummer sicher, erkundet wenig und beutet vorhandene Gewinnchancen aus. „Als hätte es ein wenig Angst“, sagt Schulz.
Fast fertig!
Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.
Du willst noch weitere Infos zum Newsletter?
Jetzt mehr erfahren