GitHubs neues KI-Tool Copilot: Diskussion um Copyright geht weiter

Das neue KI-betriebene Tool GitHub Copilot wird mit öffentlich verfügbarem Quellcode trainiert. Auf dieser Grundlage kann es Code-Schnipsel vorschlagen und soll sich auf lange Sicht auch dem persönlichen Stil der Entwickler:innen anpassen. Doch die Tatsache, dass der von Copilot vorgeschlagene Code auf öffentlichen Daten beruht, wirft die Frage nach Copyright-Verletzungen auf. Auch, weil GitHub plant, das Tool nach dem offiziellen Launch zu kommerzialisieren, machen momentan viele Entwickler*innen ihrem Frust auf Twitter Luft.
Laut GitHub kann ein kleiner Prozentsatz des vorgeschlagenen Codes aus dem Trainingsset stammen, Copilot könnte in seltenen Fällen sogar Telefonnummern ausspucken, die jedoch frei erfunden seien, da sie sich nur an Muster aus den Trainingsdaten anlehnen. GitHub kündigte an, einen Tracker entwickeln zu wollen, der den Ursprung des Codes aus dem Trainingsset nachverfolgen könne.
Copilot schlage in nur sehr seltenen Fällen ein Stück Code vor, das es so schon gibt, und wenn dies passiere, dann meistens in einem leeren File. In einem von Albert Ziegler verfassten und von GitHub veröffentlichten Paper schlussfolgert Ziegler: „Es besteht ein großer Unterschied darin, ob GitHub Copilot ein Stück Code wiedergibt oder ob ich ein Gedicht rezitiere: Ich weiß, dass ich zitiere.“
Entwickler:innen zurecht wütend?
Der Unmut in der Entwickler:innen-Szene könnte gerechtfertigt sein, da das Geschäftsmodell von GitHub auf den ersten Blick dem Copyleft-Ansatz widerspricht. Das Kopieren, Verändern und Weiterverbreiten von Werken mit Copyleft-Lizenz ist jeder und jedem erlaubt, solang die abgeleiteten Werke unter den gleichen Bedingungen behandelt werden dürfen. Dieses Prinzip fördert Innovation und Austausch.
Doch Julia Reda, Entwicklerin und ehemalige Vorsitzende der Jungen Piraten Europa, äußert sich in einem Blogbeitrag folgendermaßen: Bei den von Copilot vorgeschlagen Snippets sei die Schöpfungshöhe nicht gegeben, also seien sie auch nicht vom Urheberrecht geschützt. Es sei außerdem eine Fehlannahme, dass GitHub Copilot Werke aus den Trainingsdaten ableiten könne, denn, so Reda, „wo keine Schöpferin, da kein Werk“. Kritiker:innen von GitHub und die Copyleft-Szene würden sich nur selbst schaden, wenn sie gerade jetzt Verschärfungen des Urheberrechts forderten.