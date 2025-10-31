Das chinesische KI-Unternehmen Deepseek hat ein KI-Modell veröffentlicht, das mit neuen Techniken die „Erinnerungsfähigkeit“ von KI erheblich verbessern soll. Das Modell basiert auf optischer Zeichenerkennung (OCR): Es extrahiert Text aus einem Bild, und wandelt ihn dann in maschinenlesbare Wörter um.

Anzeige Anzeige

Diese Technologie kommt bereits in Scanner-Apps, der Übersetzung von Text in Fotos und vielen Barrierefreiheits-Tools zum Einsatz. OCR ist ein ausgereiftes Gebiet mit zahlreichen leistungsstarken Systemen, und laut der Veröffentlichung und einigen ersten Bewertungen schneidet das neue Modell von Deepseek bei wichtigen Benchmarks genauso gut ab wie die Spitzenmodelle.

Verbesserte Erinnerungen, kleinerer CO₂‑Fußabdruck von KI?

Forscher:innen sagen jedoch, dass die wichtigste Innovation des Modells in der Art und Weise liegt, wie es Informationen verarbeitet – insbesondere, wie es Erinnerungen speichert und abruft. Eine Verbesserung der Art und Weise, wie KI-Modelle Informationen „speichern“, könnte den Rechenaufwand für ihren Betrieb reduzieren und so den großen (und wachsenden) CO₂-Fußabdruck der KI verringern.

Anzeige Anzeige

Derzeit zerlegen die meisten großen Sprachmodelle Text in Tausende winziger Einheiten, sogenannte Token. Dadurch wird der Text in Repräsentationen umgewandelt, die Modelle verstehen können. Allerdings wird die Speicherung und Berechnung dieser Tokens schnell teuer, wenn die Gespräche mit den Endnutzern länger werden. Wenn Nutzer:innen über einen längeren Zeitraum mit einer KI chatten, kann diese Herausforderung dazu führen, dass die KI Dinge vergisst, die Nutzer:innen ihr bereits mitgeteilt haben, und Informationen durcheinanderbringt – ein Problem, das manche als „Context Rot“ bezeichnen.

„Context rot“ vermeiden

Die von Deepseek veröffentlichten neuen Methoden könnten zur Lösung dieses Problems beitragen. Anstatt Wörter als Tokens zu speichern, packt das System schriftliche Informationen in Bildform, fast so, als würde es Seiten aus einem Buch fotografieren. Dadurch kann das Modell fast die gleichen Informationen speichern, während es weit weniger Tokens verwendet, wie die Forscher:innen herausfanden. Im Wesentlichen ist das OCR-Modell ein Testfeld für diese neuen Methoden, mit denen mehr Informationen effizienter in KI-Modelle gepackt werden können.

Empfohlene redaktionelle Inhalte Hier findest du externe Inhalte von TargetVideo GmbH, die unser redaktionelles Angebot auf t3n.de ergänzen. Mit dem Klick auf "Inhalte anzeigen" erklärst du dich einverstanden, dass wir dir jetzt und in Zukunft Inhalte von TargetVideo GmbH auf unseren Seiten anzeigen dürfen. Dabei können personenbezogene Daten an Plattformen von Drittanbietern übermittelt werden.

Inhalte anzeigen Hier findest du externe Inhalte von, die unser redaktionelles Angebot auf t3n.de ergänzen. Mit dem Klick auf "Inhalte anzeigen" erklärst du dich einverstanden, dass wir dir jetzt und in Zukunft Inhalte vonauf unseren Seiten anzeigen dürfen. Dabei können personenbezogene Daten an Plattformen von Drittanbietern übermittelt werden. Hinweis zum Datenschutz Leider ist etwas schief gelaufen... An dieser Stelle findest du normalerweise externe Inhalte von TargetVideo GmbH, jedoch konnten wir deine Consent-Einstellungen nicht abrufen.

Lade die Seite neu oder passe deine Consent-Einstellungen manuell an.

Datenschutzeinstellungen verwalten An dieser Stelle findest du normalerweise externe Inhalte von, jedoch konnten wir deine Consent-Einstellungen nicht abrufen.Lade die Seite neu oder passe deine Consent-Einstellungen manuell an.

Neben der Verwendung visueller Tokens anstelle von reinen Text-Tokens basiert das Modell auf einer Art abgestufter Komprimierung, die dem Verblassen menschlicher Erinnerungen ähnelt: Ältere oder weniger wichtige Inhalte werden in einer etwas unschärferen Form gespeichert, um Platz zu sparen. Dennoch argumentieren die Autoren der Veröffentlichung, dass diese komprimierten Inhalte im Hintergrund weiterhin zugänglich bleiben und gleichzeitig eine hohe Systemeffizienz gewährleistet ist.

Text-Token seien „verschwenderisch“

Text-Token sind seit Langem der Standardbaustein in KI-Systemen. Die Verwendung visueller Token ist unkonventionell, weshalb das Modell von Deepseek schnell die Aufmerksamkeit der Forscher:innen auf sich gezogen hat. Andrej Karpathy, ehemaliger KI-Chef bei Tesla und Gründungsmitglied von OpenAI, lobte die Veröffentlichung auf X und erklärte, dass Bilder letztendlich besser als Text als Eingabe für LLMs geeignet sein könnten. Text-Token seien „verschwenderisch und einfach nur schlecht als Eingabe“, schrieb er.

Anzeige Anzeige

Die Veröffentlichung bietet einen neuen Rahmen für die Bewältigung der bestehenden Herausforderungen im Bereich des KI-Speichers, sagt die Informatikerin Manling Li von der Northwestern University. „Die Idee, bildbasierte Token für die Kontextspeicherung zu verwenden, ist zwar nicht ganz neu, aber dies ist die erste Studie, die ich gesehen habe, die so weit geht und zeigt, dass es tatsächlich funktionieren könnte“, so Li weiter.

So merken sich KI-Modelle mehr

Die Methode könnte neue Möglichkeiten in der KI-Forschung und -Anwendung eröffnen, insbesondere bei der Entwicklung nützlicherer KI-Agenten, sagt Zihan Wang, Doktorand an der Northwestern University. Er glaubt, dass dieser Ansatz angesichts der Kontinuität von Gesprächen mit KI dazu beitragen könnte, dass Modelle sich mehr merken und Nutzer effektiver unterstützen können.

Die Technik kann auch dazu verwendet werden, mehr Trainingsdaten für KI-Modelle zu generieren. Modellentwickler haben derzeit mit einem gravierenden Mangel an qualitativ hochwertigen Texten zu kämpfen, mit denen sie Systeme trainieren können. Laut der Deepseek-Veröffentlichung kann das OCR-System des Unternehmens jedoch mit einer einzigen GPU täglich über 200.000 Seiten Trainingsdaten generieren.

Anzeige Anzeige

Das Modell und die Veröffentlichung sind allerdings nur eine erste Untersuchung der Verwendung von Bild-Tokens anstelle von Text-Tokens für das KI-Gedächtnis. Li hofft, dass visuelle Tokens nicht nur für die Speicherung von Erinnerungen, sondern auch für das logische Denken eingesetzt werden können. Zukünftige Arbeiten sollten sich ihrer Meinung nach damit befassen, wie das Gedächtnis der KI dynamischer verblassen kann, ähnlich wie wir uns an einen lebensverändernden Moment vor Jahren erinnern können, aber vergessen haben, was wir letzte Woche zu Mittag gegessen haben. Derzeit neigt die KI selbst mit den Methoden von DeepSeek dazu, auf sehr lineare Weise zu vergessen und sich zu erinnern – sie erinnert sich an das, was zuletzt passiert ist, aber nicht unbedingt an das, was am wichtigsten war, sagt sie.

Trotz seiner Bemühungen, sich zurückzuhalten, hat sich Deepseek mit Sitz in Hangzhou, China, einen Ruf als Vorreiter in der KI-Forschung erarbeitet. Das Unternehmen schockierte die Branche Anfang dieses Jahres mit der Veröffentlichung von Deepseek-R1, einem Open-Source-Modell für logisches Denken, das trotz weitaus geringerer Rechenressourcen mit führenden westlichen Systemen in puncto Leistung mithalten kann.

Dieser Artikel stammt von Caiwei Chen. Sie ist China-Reporterin für die US-amerikanische Ausgabe von MIT Technology Review.