Ob Google Bard, ChatGPT oder Llama – eins haben alle großen Sprachmodelle gemeinsam: Sie müssen mit Unmengen an Daten trainiert werden, um gut zu funktionieren. Wie die riesigen Datensätze fürs Training zustande kommen, darüber schweigen die Firmen hinter den Modellen in ihrem fortlaufenden Konkurrenzkampf meistens.

Eine ausführliche Recherche der New York Times gibt jetzt allerdings Einblicke in die „verzweifelte Jagd nach den digitalen Daten“. Und im Hinblick auf Google heißt es da: Der Internet-Gigant habe sich 2023 durch Änderungen der Nutzungsbedingungen die Möglichkeit verschafft, „öffentlich verfügbare Google Docs, Restaurantbewertungen auf Google Maps und anderes Online-Material für mehr seiner KI-Produkte zu nutzen.“

Wer regelmäßig das Online-Textverarbeitungsprogramm Google Docs nutzt, dürfte bei diesen Zeilen hellhörig werden und sich die Frage stellen: Ab wann ist so ein Dokument denn nun „öffentlich verfügbar“?

„Öffentlich verfügbare“ Google Docs: Welche Dokumente wurden ausgelesen?

An sich verfügt Google Docs über drei einstellbare Freigabemöglichkeiten. Im eingeschränkten Modus sind Dokumente nur für händisch ausgewählte und per E-Mail-Adresse hinzugefügte Kontakte verfügbar, in der Business-Variante gibt es die Möglichkeit, ein Dokument pauschal für alle Firmenmitglieder freizuschalten.

Und dann ist da noch die Option „Jeder, der über den Link verfügt“. Die genaue Beschreibung dazu lautet: „Jeder im Internet kann das Element über den Link ansehen” und wer mit dem Mauszeiger über dem Freigabe-Button schwebt, liest da auch „Öffentlich im Web“. Bedeutet das Einstellen dieser Freigabeoption also schon, dass Google das entsprechende Dokument zu KI-Trainigzwecken auslesen kann?

Kurz gesagt – Nein. Ein Google-Sprecher erklärt gegenüber Business Insider: Für den Zugriff aufs Dokument wird in der Freigabebeschreibung der Besitz eines entsprechenden Links als Bedingung gesetzt. Erst wenn dieser Link öffentlich gepostet wird, also zum Beispiel auf einer Webseite oder via Social Media, wird er für Web-Crawler, die auf der Suche nach Trainingsdaten sind, auffindbar. Wer den Freigabelink dagegen beispielsweise lediglich per Mail oder im Unternehmenschat teilt, läuft laut Google nicht Gefahr, dass das zugehörige Dokument fürs KI-Training ausgelesen wird.

