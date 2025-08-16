Die ChatGPT-App von Sam Altman steht sowowhl im App- als auch im Play-Store auf Platz 1. Wird sie bald um ein soziales Netzwerk erweitert? (Foto: picture alliance / ZUMAPRESS.com | Rodrigo Reyes Marin)

Es gibt zwar noch keine technischen Daten zu GPT-5, dem neuen Topmodell von OpenAI. Aber die Produktvorstellung zeigt deutlich, worauf der Schwerpunkt des Konzerns lag: Die bisher vorhandenen Macken und Schwachstellen der bereits existierenden großen Sprachmodelle auszubügeln, und das Tool möglichst einfach universell einsetzbar zu gestalten. Das ist zum Teil gelungen, aber prinzipielle Probleme wie Halluzinationen sind auch bei GPT-5 nicht gelöst.

Um zu sehen, wie der Chatbot sich schlägt, haben wir einige der bekannten Schwachstellen in Alltagsszenarien abgeklopft. Das ist natürlich hochgradig subjektiv: Ich bin ein alter, weißer Mann, ein akademisch ausgebildeter Nerd, der viel zu oft zu lange am Schreibtisch sitzt, KI gerne zur Arbeitserleichterung nutzen würde – und der (natürlich) eigentlich gerne gesünder leben würde.

Schwachstellen von großen Sprachmodellen

Prinzipbedingt können große Sprachmodelle

nicht rechnen, also auch keine Wörter zählen

keine Informationen berücksichtigen, die nicht in ihren Trainingsdaten enthalten sind

nicht auf Ortsdaten zugreifen

keine logischen Zusammenhänge erfassen

nicht zwischen Halluzinationen und Fakten unterscheiden

Um diese Schwächen auszugleichen, haben die Anbieter von Chatbots eine Reihe von Techniken und Tools geschaffen, die sie an die Bots neu angestrickt haben. Mathematik und Rechnen wird mit mehr Training, guten Trainingsdaten und Reasoning besser. Aktuelle Infos kann man berücksichtigen, indem man ein externes Tool im Internet suchen lässt und die Ergebnisse als Kontext für den Chatbot ergänzt, und so weiter. Allerdings musste man sich bisher bei OpenAI entscheiden, welche Tools man ergänzen wollte – alle auf einmal ging nicht. GPT-5 nimmt diese Aufgabe selbst in die Hand.

Ein Haiku zur Jahreszeit

Die erste Aufgabe lautet: Schreibe mir ein Haiku, das die Stimmung der aktuellen Jahreszeit beschreibt. Dazu muss ChatGPT das aktuelle Datum auslesen, daraus die Jahreszeit ermitteln, passend dichten, und die Silben zählen, denn das klassische Haiku besteht aus drei Zeilen mit 5,7 und 5 Silben. Daran scheitern noch immer viele LLMs – GPT-5 meistert den ersten Test auf Anhieb. Literarisch ein bisschen krude, aber formal korrekt.

Spätsommer flüstert,

golden sinkt das Abendlicht,

Herbst atmet schon nah.

Lokalisierung

Zweiter Test: Kann ich das Tool nutzen, um zum Beispiel bei einer Reise interessante, lokale Infos abzurufen. Um das zu testen, frage ich einfach: „Was sehe ich, wenn ich aus dem Fenster schaue?“

Antwort: „Das kann ich dir leider nicht direkt sagen – ich habe ja keinen Zugriff auf deine tatsächliche Umgebung oder dein Fenster. Aber wenn du magst, kannst du mir gern beschreiben, wo du gerade bist (Ort, Etage, Ausrichtung, Wetterlage), und ich kann dir dann eine realistische Vorstellung davon malen, was du vermutlich siehst – gern auch in poetischer oder humorvoller Version.“ Das war also nichts.

Restauranttipp

Ich muss also explizit sagen, wo ich bin. Zumindest die Stadt und den Stadtteil. Die Frage: „Wo kann man hier richtig gut essen?“, beantwortet der Chatbot mit einer ausführlichen Liste, die ein wenig ungeordnet wirkt, aber auch einen Zwei-Sterne-Laden ganz in der Nähe auswirft.

Bilder interpretieren

Bleiben wir bei der Reise. Ich habe hier ein schönes Foto. Irgendein Schloss vor Abendhimmel. Wo war das noch gleich? Ich lade das Foto hoch und frage: „Was ist auf diesem Bild zu sehen?“.

Antwort: „Auf dem Bild ist eine friedliche Abendstimmung am Wasser zu sehen. Im Vordergrund erstreckt sich eine ruhige Wasserfläche, die das sanfte Licht des Sonnenuntergangs widerspiegelt. Am Horizont, leicht rechts von der Mitte, ragt ein markantes Gebäude mit einem hohen Turm auf – vermutlich ein historisches Bauwerk oder eine Burg, das auf einer kleinen Landzunge ins Wasser hineinragt. Das Bauwerk ist von Bäumen umgeben und dezent beleuchtet, was sich ebenfalls im Wasser spiegelt.“ Und so weiter. Aber wo ist das?

Antwort: „Das Gebäude auf dem Foto dürfte sehr wahrscheinlich die Imperia-Statue mit dem angrenzenden Konstanzer Hafenbereich nicht sein – vielmehr handelt es sich um das Schloss Montfort in Langenargen am Bodensee.“ Bingo. Lustig ist allerdings, dass das Modell zuerst eine falsche Antwort vermutet und sich dann selbst korrigiert.

Paywall, aktuelle Infos

Nächster Test: Wie ist die aktuelle Nachrichtenlage? Ich möchte wissen, was die drei wichtigsten Schlagzeilen der Süddeutschen Zeitung von heute sind. Die Antwort ist leider veraltet. Erst die Option „Gpt5 think“ bringt die korrekten Antworten. ChatGPT bietet auch an, die Print-Titelseite (E-Paper) von heute auszulesen. Das ist merkwürdig, denn die ist ja hinter einer Paywall. Und richtig, der Versuch scheitert: „Mist, mein Live-Zugriff auf die SZ-E-Paper-Seite klemmt gerade – ich kann die Titelseite nicht laden. :verwirrt:

Magst du mir kurz sagen, welche Ausgabe du willst (Bundesausgabe, Bayern, München o. ä.)? Dann versuche ich’s direkt nochmal und schicke dir die drei Headlines der heutigen E-Paper-Titelseite.“ Guter Versuch, aber vergiss es, das gibt nur Ärger wegen Copyright.

On-Demand-Zugriff auf Internet-Texte, logische Bedingungen, Wörter zählen

Ok, kommen wir doch noch zum Thema Arbeit. Ich muss öfter mal lange Texte kürzen. Natürlich ohne sie zu verfälschen, und indem ich das Wichtigste aus dem Text nach vorne hole. Erschwerend bei der Aufgabe füge ich noch eine Wenn-Dann-Bedingung ein: Wenn es ein interessantes Zitat gibt, übernimm das bitte in den gekürzten Text. Bis heute scheitern auch die Top-LLMs an solchen logischen Bedingungen. Um die Aufgabe realistisch, aber für das LLM noch schwerer zu machen, gebe ich noch eine maximale Zeichenzahl an – auch Zählen gehört nicht zu den Stärken von LLMs.

Hier ist der Ursprungstext, den GPT-5 auf 1.500 Zeichen kürzen sollte.

Das Ergebnis ist im ersten Anlauf 2.700 Zeichen lang und kein geschlossener Text. Für mich unbrauchbar. Im nächsten Durchlauf schlägt ChatGPT von sich aus vor, das ganze im Stil einer dpa-Meldung zu schreiben. Das haut tatsächlich hin. Die Meldung ist nicht brillant, aber brauchbar, enthält tatsächlich ein (genau ein) wörtliches Zitat und ist rund 1.600 Zeichen lang.

Physik

Testen wir Physik: „Wenn ich auf dem Mond eine Feder und einen Hammer fallen lasse, welcher der beiden Gegenstände erreicht als Erstes den Boden?“ Die Antwort ist richtig, beide Gegenstände landen gleichzeitig da. Und ChatGPT 5 weiß auch: „Das hat sogar der Astronaut David Scott während der Apollo-15-Mission 1971 live demonstriert, indem er eine Feder und einen Hammer fallen ließ – beide trafen exakt gleichzeitig auf.“

Aber warum ist das so? Der Hammer hat ja eine größere Masse, also wirkt auf ihn auch eine größere Anziehungskraft. Tatsächlich habe ich mit diesem Argument diverse LLMs aufs Kreuz gelegt, und sie haben ihre Argumentation um 180 Grad gedreht. Nicht so GPT-5. Der Chatbot „weiß“: „Ja, der Hammer wird stärker „gezogen”. Aber er ist auch träger (größere Masse), und diese Trägheit bremst den Effekt genauso stark, dass beide gleich schnell fallen.“ Das ist entweder sehr umfangreiches Training oder tatsächlich die Fähigkeit, logisch zu argumentieren (ich würde auf Reasoning tippen und Training mit „schwierigen“ Beispielen, aber das ist geraten).

Gesundheit

Zu guter Letzt Gesundheit. Ich verrate dem Bot mein Geschlecht, mein Alter und mein Ziel: Zehn Kilo abzunehmen und frage nach einem Plan. Die Antwort enthält auf den ersten Blick keine Fehler: Moderate Reduktion der Kalorien, weniger Kohlehydrate, mehr Proteine, tägliche Bewegung, Kraft- und Ausdauertraining, genug Schlaf, Stress reduzieren. Allerdings empfiehlt das Programm auch täglich 10.000 Schritte. Auf meinen Einwand, das sei ja wissenschaftlich nicht belegt, lenkt ChatGPT sogar ein wenig ein.

„Ja, das stimmt – die berühmte 10.000-Schritte-Regel hat keine solide wissenschaftliche Grundlage. Sie stammt ursprünglich nicht aus der Medizin, sondern aus einer Werbekampagne in Japan in den 1960ern: Ein Schrittzähler-Hersteller („Manpo-kei” = „10.000-Schritte-Messer”) nutzte die Zahl, weil sie griffig klang – nicht, weil Studien sie belegten. Was die Forschung tatsächlich sagt:

Gesundheitseffekte treten schon früher ein

Große Studien zeigen, dass schon ca. 6.000 bis 8.000 Schritte pro Tag bei Erwachsenen das Sterblichkeitsrisiko deutlich senken.

Bei älteren Menschen reichen oft noch weniger Schritte: In einer US-Studie (2019, JAMA Internal Medicine) hatten Frauen ab 70, die im Schnitt 4.400 Schritte/Tag gingen, schon eine deutlich bessere Lebenserwartung als weniger aktive Frauen – der Nutzen stieg bis ca. 7.500 Schritte, danach kaum noch.

Im Fazit heißt es dann: „10.000 Schritte sind nicht schädlich und für viele ein gutes Orientierungsziel. Medizinisch relevant ist eher: Beweg dich regelmäßig und vermeide langes Sitzen – egal ob das am Ende 6.000 oder 12.000 Schritte sind.“

