Auch Stack Overflow will von KI-Machern Geld sehen. (Foto: Casimiro PT / Shutterstock.com)

Schlechte Nachrichten für Entwickelnde von KI-Tools wie ChatGPT, Dall-E, Bard und anderen: In der Branche nimmt die Tendenz zu, für die Nutzung von Daten zum KI-Training Geld zu verlangen.

Dieser Tage hatte die Forenplattform Reddit offiziell bekannt gegeben, dass der bislang kostenlose API-Zugang zu den Gesprächsdaten der 18 Millionen Nutzenden ab Sommer etwas kosten wird. Nun zieht Stack Overflow nach.

Schluss mit kostenlos: Stack Overflow will Stück vom KI-Kuchen

Firmenchef Prashanth Chandrasekar hat angekündigt, ab Mitte dieses Jahres von großen KI-Entwickelnden Geld für den Zugang zu den 50 Millionen Fragen und Antworten auf seinem Dienst zu verlangen. Stack Overflow hat mehr als 20 Millionen registrierte Nutzende.

„Community-Plattformen, die LLM (Anm. d. Red.: große Sprachmodelle) fördern, sollten unbedingt für ihre Beiträge entschädigt werden, damit Unternehmen wie wir wieder in unsere Communitys investieren können, um sie weiter zum Blühen zu bringen“, sagt Chandrasekar gegenüber Wired und betont: „Wir unterstützen den Ansatz von Reddit sehr.“

Neben den beiden Community-Seiten hat jüngst auch die News/Media Alliance, eine US-Handelsgruppe von Verlegern, Grundsätze vorgestellt, die Entwickelnde generativer KI zu Verhandlungen auffordern. Die Gruppe erwartet, dass KI-Firmen die Nutzung ihrer Daten für Trainings- und andere Zwecke „angemessen vergüten“.

Plattformen wollen KI-Firmen nicht kostenlos unterstützen

Hintergrund der Bestrebungen ist der Umstand, dass Unternehmen wie Meta, Google und OpenAI, der Hersteller von ChatGPT, bei der Entwicklung ihrer KI-Systeme Datensätze aus Tausenden von Online-Quellen wie Stack Overflow und Reddit verwenden. Das geben die KI-Firmen teils zu, teils ist es aus externen Analysen belegt.

Die Daten benötigen die KI-Tools, um ihr künstliches Wissen aufzubauen und zu verfeinern. Sie sind also immens wichtig für die Fortentwicklung solcher Tools. Es verwundert nicht, dass die Bereitstellenden solcher Daten ein Stück vom Kuchen beanspruchen.

Chandrasekar bezeichnet die zusätzlichen Einnahmen als entscheidend, um sicherzustellen, dass Stack Overflow weiterhin qualitativ hochwertige Informationen bereitstellen kann. Das werde nicht zuletzt zukünftigen Chatbots helfen, die „auf etwas trainiert werden müssen, das das Wissen vorantreibt“.

Lizenzierung schon jetzt nötig

Kritische Stimmen befürchten, dass die Abschirmung wertvoller Daten hinter Paywalls auch einige KI-Entwickelnde abschrecken und die Verbesserung von LLM insgesamt verlangsamen könnte. Das sieht Chandrasekar anders. Er geht im Gegenteil davon aus, dass eine ordnungsgemäße Lizenzierung nur dazu beitragen wird, die Entwicklung von LLM zu beschleunigen.

Streng genommen würden laut Chandrasekar bereits zum jetzigen Zeitpunkt Nutzungsbedingungen gebrochen, denn die gäben eine freie Nutzung zum Zwecke des KI-Trainings ohnehin nicht her. Immerhin würden die Daten zwar kostenlos, aber unter einer Creative-Commons-Lizenz bereitgestellt.

Diese Lizenz verlangt von jedem, der die Daten später verwendet, die Angabe der Herkunft. Wenn KI-Unternehmen ihre Modelle an Kunden verkauften, seien sie indes nicht in der Lage, jedes einzelne Mitglied der Community, dessen Fragen und Antworten zum Trainieren des Modells verwendet wurden, zu benennen. Das verstoße klar gegen die Creative-Commons-Lizenz, so Chandrasekar.

Gebühren nur für kommerzielle Nutzung vorgesehen

Sowohl Stack Overflow als auch Reddit werden weiterhin Daten kostenlos lizenzieren. Chandrasekar macht klar, dass Stack Overflow nur von Unternehmen, die LLM für große, kommerzielle Zwecke entwickeln, eine Vergütung haben wolle. „Wenn Leute anfangen, Geld für Produkte zu verlangen, die auf von der Gemeinschaft aufgebauten Websites wie der unseren aufgebaut sind, dann ist das keine faire Nutzung“, sagt er.

Bei Stack Overflow könnte die Erhebung von Gebühren für das KI-Training auch noch einen anderen Grund haben. Denn das Unternehmen arbeitet selbst an einer umfassenderen KI-Strategie. Etwa zehn Prozent der fast 600 Mitarbeiter von Stack Overflow sollen sich auf diese Strategie konzentrieren, zu der auch die Entwicklung eigener generativer KI-Dienste gehört. So könnte etwa eine Art von KI-Assistent Menschen beim Verfassen von Fragen unterstützen.

