Trotz weniger Parameter: Wie es eine Open-Source-KI mit GPT-4o aufnimmt
Unter der Bezeichnung Molmo veröffentlicht das Allen Institute for Artificial Intelligence (Ai2) eine Familie von quelloffenen multimodalen Sprachmodellen. Nach Angabe dieser gemeinnützigen Forschungseinrichtung sollen sie genauso gut abschneiden wie die besten proprietären Modelle von OpenAI, Google und Anthropic.
Ai2 behauptet, dass ihr größtes Molmo-Modell mit 72 Milliarden Parametern das GPT-4o-Modell von OpenAI, das schätzungsweise über eine Billion Parameter hat, in Tests zum Verständnis von Bildern, Tabellen und Dokumenten übertrifft. Und ein kleineres Molmo-Modell mit sieben Milliarden Parametern komme an die Leistung des modernsten Modells von OpenAI heran, eine Leistung, die Ai2 auf eine wesentlich effizientere Datensammlung und Trainingsmethoden zurückführt.
Modell als Open Source
„Molmo zeigt, dass die Open-Source-KI-Entwicklung jetzt auf Augenhöhe mit geschlossenen, proprietären Modellen ist“, sagt Ali Farhadi, der CEO von Ai2. Und Open-Source-Modelle haben einen bedeutenden Vorteil, da ihre Offenheit bedeutet, dass andere Leute Anwendungen auf ihnen aufbauen können. Die Molmo-Demo ist hier verfügbar, und Entwickler:innen können auf der Website von Hugging Face daran herumschrauben. (Bestimmte Elemente des leistungsstärksten Molmo-Modells sind noch nicht für die Öffentlichkeit zugänglich.)
Andere große multimodale Sprachmodelle werden auf riesigen Datensätzen trainiert, die Milliarden von Bildern und Textproben aus dem Internet enthalten; sie können mehrere Billionen Parameter enthalten. Dieser Prozess führt zu einer Menge Rauschen in den Trainingsdaten und damit zu Halluzinationen, sagt Ani Kembhavi, Senior Director of Research bei Ai2. Im Gegensatz dazu wurden die Molmo-Modelle von Ai2 auf einem wesentlich kleineren und besser kuratierten Datensatz mit nur 600.000 Bildern trainiert und haben zwischen eine Milliarde und 72 Milliarden Parameter. Diese Konzentration auf qualitativ hochwertige Daten im Gegensatz zu wahllos zusammengetragenen Informationen hat laut Kembhavi zu einer guten Leistung mit weit weniger Ressourcen geführt.
Ai2 erreichte dies, indem es menschliche Kommentator:innen dazu brachte, die Bilder im Trainingsdatensatz des Modells auf mehreren Textseiten bis ins kleinste Detail zu beschreiben. Sie baten die Kommentator:innen, über das Gesehene zu sprechen, anstatt es abzutippen. Anschließend wandelten sie deren Sprache mithilfe von KI-Techniken in Daten um, was den Trainingsprozess erheblich beschleunigte und gleichzeitig die erforderliche Rechenleistung reduzierte.
Daten mit besserer Qualität für das KI-Training
Diese Techniken könnten sich als sehr nützlich erweisen, wenn wir die Daten, die wir für die KI-Entwicklung verwenden, sinnvoll steuern wollen, sagt Yacine Jernite, der bei Hugging Face für maschinelles Lernen und Gesellschaft zuständig ist und nicht an der Forschung beteiligt war.
„Es macht Sinn, dass das Training auf Daten höherer Qualität die Rechenkosten senken kann“, sagt Percy Liang, der Direktor des Stanford Center for Research on Foundation Models, der ebenfalls nicht an der Studie beteiligt war.
Eine weitere beeindruckende Fähigkeit ist, dass das Modell auf Dinge „zeigen“ kann, das heißt es kann Elemente eines Bildes analysieren, indem es die Pixel identifiziert, die eine Anfrage beantworten.
Bildanalyse per KI
In einer Demo, die der MIT Technology Review zur Verfügung gestellt wurde, nahmen die Ai2-Forscher ein Foto des örtlichen Jachthafens in Seattle auf und baten das Modell, verschiedene Elemente des Bildes zu identifizieren, wie etwa Liegestühle. Das Modell beschrieb erfolgreich, was auf dem Bild zu sehen war, zählte die Liegestühle und wies genau auf andere Dinge im Bild hin, wie die Forscher:innen es verlangten. Es war jedoch nicht perfekt. Es konnte zum Beispiel einen bestimmten Parkplatz nicht lokalisieren.
Andere fortschrittliche KI-Modelle sind gut darin, Szenen und Bilder zu beschreiben, sagt Farhadi. Aber das reicht nicht aus, wenn man anspruchsvollere Webagenten entwickeln will, die mit der Welt interagieren und etwa einen Flug buchen können. Das Zeigen ermöglicht es den Menschen, mit Benutzeroberflächen zu interagieren, sagt er.
Ein guter Anfang mit Molmo
Jernite sagt, dass Ai2 mit einem höheren Maß an Offenheit arbeitet, als wir es von anderen KI-Unternehmen kennen. Molmo sei zwar ein guter Anfang, aber seine wahre Bedeutung liege in den Anwendungen, die Entwickler darauf aufbauen, und in den Möglichkeiten, wie Menschen es verbessern.
Farhadi stimmt dem zu. KI-Unternehmen haben in den letzten Jahren massive Investitionen in Höhe von mehreren Milliarden Dollar angezogen. In den letzten Monaten haben sich die Investor:innen jedoch skeptisch geäußert, ob sich diese Investitionen auszahlen werden. Große, teure proprietäre Modelle können das nicht leisten, argumentiert er, aber Open-Source-Modelle schon. Er sagt, die Arbeit zeige, dass Open-Source-KI auch auf eine Weise entwickelt werden kann, die Geld und Zeit effizient nutzt.
„Wir freuen uns darauf, andere in die Lage zu versetzen und zu sehen, was andere damit aufbauen können“, sagt Farhadi.