Wissenschaftler:innen von Apple und der Ohio State University haben ein neues Hybridmodell-Sprachmodell entwickelt. Wie 9 to 5 Mac berichtet, kann es Texte bis zu 128-mal schneller erstellen als andere aktuelle Modelle. Das Forschungsteam sieht in dem Ansatz großes Potenzial, um Ressourcen zu sparen.

Anzeige Anzeige

Textgenerierung braucht viel Zeit – oder Leistung

Große Sprachmodelle wie ChatGPT zählen zu den autoregressiven Modellen. Sie erzeugen Texte schrittweise – also Token für Token. Dabei basiert jedes neue Wort auf der Eingabe der Nutzer:innen sowie den zuvor generierten Wörtern. Das Modell „sieht” somit stets den gesamten bisherigen Text und berechnet auf dieser Grundlage, wie er logisch weitergehen könnte. Dieses Verfahren sorgt für eine hohe Kohärenz, ist aber vergleichsweise langsam, da jedes Wort nacheinander erzeugt werden muss.

Sogenannte Diffusionsmodelle verfolgen einen anderen Ansatz. Sie werden bisher vor allem bei der Bildgenerierung genutzt. Diese Modelle erstellen Inhalte ebenfalls nicht auf einmal, aber sie können mehrere Token parallel generieren und verbessern sie in vielen kleinen Iterationen, bis das Ergebnis schließlich sinnvoll und grammatikalisch korrekt ist. Dieser Ansatz führt zwar in der Regel zu hochwertigen Ergebnissen, ist aber auch sehr rechenintensiv, da je nach Prompt viele hundert oder sogar tausend Schritte nötig sein können.

Anzeige Anzeige

Die Vorteile mehrerer Ansätze vereint

Flow-Matching-Modelle sind eine Weiterentwicklung dieser Methode. Sie zielen darauf ab, den langen iterativen Prozess der Diffusionsmodelle zu verkürzen. Anstatt sich Schritt für Schritt zum fertigen Text vorzuarbeiten, lernen Flow-Matching-Modelle direkt, wie sie den gewünschten Text in einem einzigen Durchgang erzeugen können.

In ihrem Paper beschreiben die Forschenden von Apple und der Ohio State University jetzt ein neues Hybridverfahren, das den Namen Few-Step Discrete Flow-Matching (FS-DFM) trägt. Dieser Ansatz kombiniert die Präzision von Diffusionsmodellen mit der Effizienz des Flow-Matching-Ansatzes. Das Besondere: FS-DFM benötigt lediglich acht Verfeinerungsschritte, um Textpassagen zu erzeugen, die qualitativ mit Modellen vergleichbar sind, die über tausend Schritte benötigen. Dadurch könnte die Methode die Generierung komplexer Texte deutlich beschleunigen.

Empfohlene redaktionelle Inhalte Hier findest du externe Inhalte von TargetVideo GmbH, die unser redaktionelles Angebot auf t3n.de ergänzen. Mit dem Klick auf "Inhalte anzeigen" erklärst du dich einverstanden, dass wir dir jetzt und in Zukunft Inhalte von TargetVideo GmbH auf unseren Seiten anzeigen dürfen. Dabei können personenbezogene Daten an Plattformen von Drittanbietern übermittelt werden.

Inhalte anzeigen Hier findest du externe Inhalte von, die unser redaktionelles Angebot auf t3n.de ergänzen. Mit dem Klick auf "Inhalte anzeigen" erklärst du dich einverstanden, dass wir dir jetzt und in Zukunft Inhalte vonauf unseren Seiten anzeigen dürfen. Dabei können personenbezogene Daten an Plattformen von Drittanbietern übermittelt werden. Hinweis zum Datenschutz Leider ist etwas schief gelaufen... An dieser Stelle findest du normalerweise externe Inhalte von TargetVideo GmbH, jedoch konnten wir deine Consent-Einstellungen nicht abrufen.

Lade die Seite neu oder passe deine Consent-Einstellungen manuell an.

Datenschutzeinstellungen verwalten An dieser Stelle findest du normalerweise externe Inhalte von, jedoch konnten wir deine Consent-Einstellungen nicht abrufen.Lade die Seite neu oder passe deine Consent-Einstellungen manuell an.

Bis zu 128-mal schnellere Ergebnisse

Für die neue Methode haben die Forscher:innen einen dreistufigen Trainingsansatz gewählt. Zunächst wurde das Modell darauf trainiert, mit unterschiedlich vielen Verfeinerungsrunden umzugehen. Dadurch kann es flexibel bleiben, selbst wenn nur wenig Rechenzeit zur Verfügung steht. Anschließend kam ein sogenanntes „Lehrer-Modell“ zum Einsatz, das das FS-DFM dabei unterstützt, pro Iteration größere und präzisere Verbesserungen vorzunehmen, ohne vom gewünschten Textziel abzuweichen. Zum Schluss optimierten sie die Funktionsweise jeder einzelnen Iteration, sodass das Modell das Endergebnis in weniger regelmäßigen Schritten erreicht.

Die Leistungsfähigkeit der neuen Methode wurde anhand zweier zentraler Kennzahlen bewertet. Während die Perplexität misst, wie gut ein Sprachmodell vorhersagen kann, welches Wort als nächstes folgt, beschreibt die Entropie, wie sicher das Modell bei der Wortauswahl ist. Im Vergleich zu etablierten Diffusionsmodellen konnte FS-DFM selbst mit deutlich weniger Parametern präzisere und stabilere Texte erstellen. Im Vergleich zu anderen gängigen Modellen war die neue Methode sogar rund 128-mal schneller.

Anzeige Anzeige

Die weitere Forschung soll gefördert werden

Die Ergebnisse sind vielversprechend. Sie deuten darauf hin, dass hochwertige Textgenerierung künftig mit weniger Rechenleistung und Zeitaufwand möglich sein könnte. Da es trotz des großen Potenzials bisher aber an vergleichbaren Studien mangelt, kündigten die Apple-Forscher:innen an, den Code und die Modell-Checkpoints öffentlich zugänglich zu machen. Dadurch könnten auch andere Teams die Methode reproduzieren und die Forschung weiter vorantreiben.