OpenAI-Mitgründer sieht nach Llama-3-Launch riesiges Aufholpotenzial bei KI-Konkurrenz
Meta hat in der vergangenen Woche mit Llama 3 eine neue Version seines Sprachmodells vorgestellt. Dessen Leistungsfähigkeit soll die der KI-Konkurrenz zum Teil deutlich übertreffen. Das soll auch an der Vielzahl der verwendeten Trainingsdaten liegen.
Llama 3 wurde mit riesiger Menge an Daten trainiert
Der Facebook-Mutterkonzern hat eigenen Angaben zufolge sein Acht-Milliarden-Parameter-Modell mit rund 15 Billionen Token trainiert. Ein Umstand, der die Branche staunen lässt. Denn damit wird nicht nur die Datenmenge deutlich übertroffen, mit der Llama 2 trainiert wurde, sondern auch jene, die nach den „Gesetzen“ der Branche bisher gilt.
Wie The Decoder berichtet, besagen die von Deepmind entwickelten Chinchilla-Skalierungsgesetze, dass für ein Acht-Milliarden-Modell rund 200 Milliarden Token optimal wären. Damit würde die Rechenleistung möglichst effizient genutzt. Zur Einordnung: Meta hat diesen Wert um das 75-Fache übertroffen.
Branchengesetze zeigen optimale, aber nicht maximale Leistung
KI-Experte und OpenAI-Mitgründer Andrej Karpathy kommt in diesem Zusammenhang zu dem Schluss, dass die Chinchilla-Gesetze zwar die optimale Recheneffizienz bestimmen könnten. Sie würden aber nichts darüber aussagen, wie stark ein KI-Modell trainiert werden kann, bis die maximale Leistung erreicht sei.
Meta zufolge sei die Llama-3-Leistung auch nach dem Training mit bis zu 15 Billionen Token weiter „log-linear“ angestiegen. Das deutet laut Karpathy darauf hin, dass die meisten derzeit verwendeten Sprachmodelle um den Faktor 100 bis 1.000 untertrainiert seien – und damit auch noch nicht ihr volles Potenzial erreicht hätten.
Potenzial von KI-Sprachmodellen noch nicht ausgereizt
Wie weit die Leistung von KI-Sprachmodellen durch die Verwendung von immer mehr Trainingsdaten gesteigert werden kann, ist unklar. Meta hat mit Llama 3 aber gezeigt, dass das Potenzial bisher noch lange nicht ausgereizt ist.
Allerdings ist die schiere Masse an Trainingsdaten nicht alles, was ein wirklich leistungsfähiges System ausmacht. Meta etwa hat für das Fine-Tuning zusätzlich noch zehn Millionen qualitativ hochwertige Beispiele verwendet. Diese Methode kann auch die Leistung kleinerer Sprachmodelle weiter erhöhen.