Anzeige
Anzeige
Analyse MIT Technology Review

Quelloffene KI: Warum die Techbranche darüber streitet, was das überhaupt ist

Die Antwort auf diese Frage dürfte über unsere Zukunft mitentscheiden: Google, Meta und andere Konzerne diskutierten über Open-Source-AI.

Von MIT Technology Review Online
11 Min.
Artikel merken
Anzeige
Anzeige

(Foto: William Potter / Shutterstock)

„Open Source“ scheint das neue Modewort in der KI zu sein. Konzerne wie Meta oder Google fühlen sich verpflichtet, quelloffene Sprachmodelle zu entwickeln, während Elon Musk OpenAI verklagt, weil es GPT-4 und seine Nachfolger eben nicht freigeben will. Gleichzeitig gibt es eine wachsende Zahl von Start-ups und Promis aus der KI-Szene, die sich als Open-Source-Verfechter positionieren. Das grundlegende Problem: Niemand kann sich darauf einigen, was „quelloffene KI“ überhaupt bedeutet – und das könnte entscheidende Bedeutung für die Zukunft der Branche, womöglich der gesamten Menschheit haben.

Anzeige
Anzeige

Auf den ersten Blick verspricht Open-Source-KI eine Zukunft, in der sich jeder an der Entwicklung modernster Technologie beteiligen kann. Das könnte die Innovation beschleunigen, die Transparenz erhöhen und den Nutzern mehr Kontrolle über Systeme geben, die schon bald viele Aspekte unseres Lebens verändern könnten. Aber was heißt das überhaupt? Was macht ein KI-Modell zu Open Source – und was eben nicht? Solange sich die Technikbranche nicht auf eine Definition geeinigt hat, können mächtige Konzerne das Konzept leicht nach eigenen Bedürfnissen zurechtbiegen – und es könnte sogar zu einem Instrument werden, das die Vorherrschaft der heute führenden Akteure eher festigt als begrenzt.

Die Open Source Initiative (OSI) spielt dabei eine Art Schiedsrichter. Sie gilt als Hüter des quelloffenen Gedankens. Die 1998 gegründete gemeinnützige Organisation hat dazu eine weithin akzeptierten Reihe von Regeln aufgestellt, die bestimmen, ob eine Software als Open Source gelten kann oder nicht. Kürzlich hat die Gruppe ein 70-köpfiges Team an Forschern, Juristen, politischen Entscheidungsträgern, Aktivisten und Vertretern großer Technologiekonzerne wie Meta, Google und Amazon an einen Tisch gebracht. Gemeinsam will man eine Arbeitsdefinition für Open-Source-KI ausarbeiten.

Anzeige
Anzeige

Die Open-Source-Community ist sehr divers. Sie umfasst quasi alle Schichten, vom kleinen Hacktivisten bis zum Fortune-500-Unternehmen. Während man sich bei den übergreifenden Prinzipien weitgehend einig sei, sagt Stefano Maffulli, Geschäftsführer des OSI, werde es immer deutlicher, dass „der Teufel im Detail steckt“. Ergo: Bei so vielen konkurrierenden Interessen ist es keine leichte Aufgabe, eine Lösung zu finden, die alle zufriedenstellt – und gleichzeitig garantiert, dass die größten Unternehmen fair mitspielen. Das Fehlen einer eindeutigen Definition hat die Konzerne nämlich kaum daran gehindert, den Begriff zu übernehmen und zu dehnen.

Im Juli vergangenen Jahres hat beispielsweise Meta sein Llama-2-Modell, das der Konzern selbst als Open Source bezeichnet, frei zugänglich gemacht und seither einige weitere KI-Tools auf dieselbe Art publiziert. „Wir unterstützen die Bemühungen der OSI, Open-Source-KI zu definieren“, sagt Jonathan Torres, stellvertretender Leiter der Meta-Rechtsabteilung für die Bereiche KI, Open Source und Lizenzierung. Man freue sich darauf, weiterhin an diesem Prozess „zum Nutzen der Open-Source-Gemeinschaft auf der ganzen Welt“ teilzunehmen. Das steht wiederum in deutlichem Gegensatz zum Konkurrenten OpenAI, der im Laufe der Jahre immer weniger technische Details über seine führenden Modelle preisgegeben hat und dabei stets Sicherheitsbedenken anführte. „Wir geben leistungsstarke KI-Modelle erst dann frei, wenn wir die Vorteile und Risiken sorgfältig abgewogen haben“, sagte ein Sprecher. Das gelte für Missbrauchsmöglichkeiten und Auswirkungen auf die Gesellschaft.

Anzeige
Anzeige

Andere führende KI-Unternehmen wie Stability AI und die deutsche Firma Aleph Alpha haben ebenfalls Modelle veröffentlicht, die als Open Source bezeichnet werden, während Hugging Face eine große Bibliothek frei verfügbarer KI-Modelle anbietet. Bei Google bietet man seine leistungsstärksten Modelle wie Gemini und PaLM 2 eher geschlossen an, hat aber mittlerweile Gemma frei zugänglich gemacht. Es ist so konzipiert, dass es mit Metas Llama 2 mithalten kann. „Open Source“ nennt Google Gemma aber nicht, stattdessen sei das Modell „offen“, so der Internetgigant.

Es gibt erhebliche Meinungsverschiedenheiten darüber, was hier wirklich offen bedeutet. Zunächst einmal sind sowohl Llama 2 als auch Gemma mit Lizenzen ausgestattet, die die Möglichkeiten der Nutzer einschränken. Das ist ein grundlegender Widerspruch zu den Open-Source-Prinzipien: Eine der Schlüsselklauseln der OSI-Definition verbietet die Auferlegung von Beschränkungen auf der Grundlage von Anwendungsfällen. Und die Kriterien sind selbst für Modelle, die nicht an solche Bedingungen geknüpft sind, eher unscharf. Das Konzept von Open Source wurde schließlich entwickelt, um sicherzustellen, dass Entwickler Software ohne Einschränkungen nutzen, im Quellcode begutachten, verändern und weitergeben können. KI-Systeme funktionieren jedoch grundlegend anders. Schlüsselkonzepte aus der Open-Source-Branche ließen sich daher nicht ohne Weiteres auf Künstliche Intelligenz übertragen, sagt Maffulli.

Anzeige
Anzeige

Eine der größten Hürden ist die schiere Anzahl der technischen Bestandteile, die in den heutigen KI-Modellen enthalten sind. Alles, was man benötigt, um an einer normalen Software herumzubasteln, ist der zugrunde liegende Quellcode. Doch je nach Zielsetzung kann die Arbeit an einem KI-Modell den Zugriff auf das vorab trainierte Modell, seine Trainingsdaten oder den Quellcode zur Vorverarbeitung dieser Daten umfassen. Hinzu kommt der Code für den Trainingsprozess selbst, die dem Modell zugrunde liegende Architektur sowie eine Vielzahl anderer, subtilerer Details. „Welche Bestandteile Sie benötigen, um Modelle sinnvoll zu überblicken und zu verändern, bleibt der Interpretation überlassen. Wir haben aber festgezurrt, welche Grundfreiheiten oder Grundrechte wir ausüben wollen“, sagt Maffulli. Doch die Umsetzung sei noch unklar.

Die Klärung dieser Debatte wird von entscheidender Bedeutung sein, wenn die KI-Gemeinschaft die gleichen Vorteile nutzen will, die Entwickler aus „normaler“ Open-Source-Software gezogen haben, sagt der OSI-Chef. Diese beruhe auf einem breiten Konsens über die Bedeutung des Begriffs. „Eine [Definition], die von einem großen Teil der Branche respektiert und angenommen wird, schafft Klarheit“, sagt er. Und Klarheit bedeute geringere Kosten bei der Einhaltung solcher Open-Source-Vorschriften, weniger Reibungsverluste und ein gemeinsames Verständnis der Technologie. Das Problem: Das reicht wohl nicht. „Der mit Abstand größte Knackpunkt sind die Daten. Alle großen KI-Firmen haben einfach vortrainierte Modelle veröffentlicht, ohne die Datensätze, auf denen sie trainiert wurden.“ Für diejenigen, die sich für eine strengere Definition von Open-Source-KI einsetzen, schränkt dies die Nutzung deutlich ein. Mancher meint gar, dass dies kein Open Source mehr darstellt.

Andere Mitglieder der Community argumentieren, dass eine einfache Beschreibung der Daten oft ausreicht, um ein Modell zu überblicken. Man müsse es nicht unbedingt von Grund auf neu trainieren, um Änderungen vorzunehmen. Fertige Modelle werden schon jetzt routinemäßig durch einen als Finetuning bekannten Prozess angepasst, bei dem sie teilweise auf einem kleineren, oft anwendungsspezifischen Datensatz zusätzlich trainiert werden. Metas Llama 2 ist ein gutes Beispiel dafür, sagt Roman Shaposhnik, CEO des Open-Source-KI-Unternehmens Ainekko und Vizepräsident für den Bereich Recht bei der Apache Software Foundation, die am OSI-Prozess beteiligt ist. Meta habe zwar nur ein vortrainiertes Modell veröffentlicht, aber eine florierende Community von Entwicklern habe das Modell heruntergeladen, angepasst und ihre Änderungen dann an andere weitergegeben. „Die Leute verwenden es in allen möglichen Projekten. Es gibt ein ganzes Ökosystem um Llama 2 herum“, sagt er. „Wir müssen es also umdefinieren. Ist es vielleicht „halb offen?“

Anzeige
Anzeige

Es mag zwar technisch möglich sein, ein Modell ohne die ursprünglichen Trainingsdaten anzupassen. Doch sei es eben nicht im Sinne von Open Source, den Zugang zu einem wichtigen Bestandteil einer Software einzuschränken, meint Zuzanna Warso, Forschungsdirektorin der gemeinnützigen Organisation Open Future, die ebenfalls an der OSI-Definition arbeitet. Es sei auch fraglich, ob man wirklich die Freiheit habe, ein Modell genauer zu studieren, ohne zu wissen, auf welchen Informationen es aufgebaut wurde. „Das ist ein entscheidender Bestandteil des ganzen Prozesses“, sagt sie. „Wenn uns Offenheit am Herzen liegt, sollten wir uns auch um die Offenheit der Trainingsdaten kümmern.“

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Schreib den ersten Kommentar!
Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Anzeige
Anzeige