Mit einem am 6. Dezember 2023 veröffentlichten Video wollte Google die Fähigkeiten des neuen KI-Modells Gemini demonstrieren. Der Clip zeigt eine überraschend natürliche Interaktion zwischen einem Google-Mitarbeiter und der KI. Beide unterhalten sich mit gesprochener Sprache und Gemini erkennt beispielsweise das Spiel „Schere, Stein, Papier“ rein an den Handbewegungen.
Der Clip sorgte im Netz schnell für Begeisterung. Allerdings nur für kurze Zeit. Denn wie sich später herausstellte, hat sich Google gewisse künstlerische Freiheiten genommen: In Wahrheit fand die Interaktion nämlich über Texteingaben und nicht über gesprochene Sprache statt.
Entwickler baut Demo in echt nach – mit GPT-4
Der Entwickler Gregory Sadetsky zeigt jetzt in einem Video, dass die im Google-Clip gezeigte Interaktion theoretisch aber durchaus wie dargestellt hätte stattfinden können. Dazu nutzt er allerdings nicht Gemini, sondern GPT-4 von OpenAI.
Sadetskys Video zeigt zwar, dass Google das Ganze sicherlich auch ohne Trickserei hätte darstellen können, gleichzeitig macht das Video aber auch deutlich, dass es mit bestehender Technik schlichtweg nicht so flüssig aussieht, wie Google es in der Demo dargestellt hat.
Wer sich dafür interessiert, wie Sadetsky die Demo mit GPT-4 nachgebaut hat, der kann den Quellcode auf GitHub einsehen.