OpenAI-Mitgründer sieht nach Llama-3-Launch riesiges Aufholpotenzial bei KI-Konkurrenz

News

OpenAI-Mitgründer sieht nach Llama-3-Launch riesiges Aufholpotenzial bei KI-Konkurrenz

Meta ist mit Llama 3 ein großer Wurf gelungen. Die hohe Leistungsfähigkeit im Vergleich zu anderen KI-Modellen liegt wohl auch am Rekordumfang der Trainingsdaten. Hier sieht ein KI-Experte jetzt ein riesiges Potenzial für die Branche.

Von Jörn Brien

25.04.2024, 13:30 Uhr • 2 Min.

Llama 3 Meta KI — Llama 3 ist da – und die KI-Branche staunt. (Foto: Ascannio/Shutterstock)

Meta hat in der vergangenen Woche mit Llama 3 eine neue Version seines Sprachmodells vorgestellt. Dessen Leistungsfähigkeit soll die der KI-Konkurrenz zum Teil deutlich übertreffen. Das soll auch an der Vielzahl der verwendeten Trainingsdaten liegen.

Llama 3 wurde mit riesiger Menge an Daten trainiert

Der Facebook-Mutterkonzern hat eigenen Angaben zufolge sein Acht-Milliarden-Parameter-Modell mit rund 15 Billionen Token trainiert. Ein Umstand, der die Branche staunen lässt. Denn damit wird nicht nur die Datenmenge deutlich übertroffen, mit der Llama 2 trainiert wurde, sondern auch jene, die nach den „Gesetzen“ der Branche bisher gilt.

Empfehlungen der Redaktion

Fundstück

Wie funktionieren große Sprachmodelle? Diese interaktive Website erklärt es euch

Briefing

GPT-4: Was wir von Tom Cruises Mutter über Probleme großer Sprachmodelle lernen

News

KIs von Meta und OpenAI sollen besser argumentieren und planen können – nächster Schritt zur AGI?

Wie The Decoder berichtet, besagen die von Deepmind entwickelten Chinchilla-Skalierungsgesetze, dass für ein Acht-Milliarden-Modell rund 200 Milliarden Token optimal wären. Damit würde die Rechenleistung möglichst effizient genutzt. Zur Einordnung: Meta hat diesen Wert um das 75-Fache übertroffen.

Branchengesetze zeigen optimale, aber nicht maximale Leistung

KI-Experte und OpenAI-Mitgründer Andrej Karpathy kommt in diesem Zusammenhang zu dem Schluss, dass die Chinchilla-Gesetze zwar die optimale Recheneffizienz bestimmen könnten. Sie würden aber nichts darüber aussagen, wie stark ein KI-Modell trainiert werden kann, bis die maximale Leistung erreicht sei.

Meta zufolge sei die Llama-3-Leistung auch nach dem Training mit bis zu 15 Billionen Token weiter „log-linear“ angestiegen. Das deutet laut Karpathy darauf hin, dass die meisten derzeit verwendeten Sprachmodelle um den Faktor 100 bis 1.000 untertrainiert seien – und damit auch noch nicht ihr volles Potenzial erreicht hätten.

Potenzial von KI-Sprachmodellen noch nicht ausgereizt

Wie weit die Leistung von KI-Sprachmodellen durch die Verwendung von immer mehr Trainingsdaten gesteigert werden kann, ist unklar. Meta hat mit Llama 3 aber gezeigt, dass das Potenzial bisher noch lange nicht ausgereizt ist.

Sora: Das sind die besten Clips von OpenAIs Video-KI Quelle:

Allerdings ist die schiere Masse an Trainingsdaten nicht alles, was ein wirklich leistungsfähiges System ausmacht. Meta etwa hat für das Fine-Tuning zusätzlich noch zehn Millionen qualitativ hochwertige Beispiele verwendet. Diese Methode kann auch die Leistung kleinerer Sprachmodelle weiter erhöhen.

Bildergalerie ansehen

Mehr zu diesem Thema

MIT Technology Review Künstliche Intelligenz Meta Open AI

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren