Über die vergangenen 18 Jahre hat die Foren-Plattform Reddit einen wahren Schatz an menschlichen Interaktionen und Unterhaltungen gesammelt. Der ist natürlichsprachlich und deckt die unterschiedlichsten Themenbereiche ab.
Reddit will mitverdienen
Damit eignet er sich hervorragend, um große Sprachmodelle wie die der sich schnell verbessernden KI-Chatbots zu trainieren. Dieses Potenzial will Reddit nun monetarisieren.
Das scheint nachvollziehbar, denn immerhin handelt es sich nicht um kleine, finanziell schwache Unternehmen, die die API zum Trainieren von KI-Chatbots nutzen. Auch Branchengrößen wie Google und OpenAI nutzen Reddit für das Training ihrer LLM-Sprachmodelle.
Dem begegnet Reddit nun mit der Einführung eines „neuen Premium-Zugangspunkts für Dritte“, wie es das Unternehmen in einer offiziellen Ankündigung nennt. Preise hat Reddit nicht kommuniziert.
Gestaffeltes Preismodell erwartet
Reddit hat indes bestätigt, dass es ein gestaffeltes Preismodell geben wird, vermutlich in Abhängigkeit von der Größe des Unternehmens oder dem Umfang des Datenzugriffs. Bislang nennt die Social-Media-Plattform unterschiedliche Nutzungsrechte und -möglichkeiten als Unterscheidungsmerkmale zwischen den Stufen.
„Der Datenbestand von Reddit ist wirklich wertvoll“, zeigte sich Steve Huffman, Gründer und Geschäftsführer von Reddit, gegenüber der New York Times überzeugt. „Und wir müssen nicht all diesen Wert einigen der größten Unternehmen der Welt kostenlos zur Verfügung stellen.“
Nicht nur Reddit: Unterschiedliche Daten für LLM-Training erforderlich
Große Sprachmodelle werden natürlich nicht ausschließlich mit Reddit-Daten trainiert. Auch Daten-Scraper wie Common Crawl spielen eine bedeutende Rolle. Sie ziehen und bereiten indes hauptsächlich quantitative Daten auf, liefern also wichtige Masse für den Trainingsprozess. Wichtiger sind am Ende jedoch die gesprächsartigen Reddit-Daten, weil nur sie echte Kommunikation zwischen Menschen nachbilden.
Dass Reddit ausgerechnet jetzt mit der Monetarisierung seines Datenbestandes beginnt, dürfte damit zu tun haben, dass der Plattformbetreiber wohl noch in diesem Jahr an die Börse gehen möchte. Da ist die Schaffung einer neuen Einnahmequelle bekanntlich nie eine schlechte Idee.