In den letzten Jahren wurden bemerkenswerte Fortschritte bei der Entwicklung großer Sprachmodelle erzielt. ChatGPT ist dabei besonders hervorzuheben, da es gelehrt wird, den Gesprächskontext festzuhalten, angemessen auf Folgeanfragen zu reagieren und genaue Antworten zu generieren. Allerdings wird ChatGPT nur mit einer einzigen Sprachmodalität trainiert, was seine Fähigkeit, visuelle Informationen zu verarbeiten, einschränkt.
Gleichzeitig gibt es Visual Foundation Models (VFM), die in der Lage sind, komplexe visuelle Darstellungen zu verstehen und zu konstruieren. VFM sind jedoch weniger anpassungsfähig als Konversationssprachmodelle in der Mensch-Maschine-Interaktion.
Das Trainieren eines multimodalen Konversationsmodells ist eine natürliche Lösung, die ein ChatGPT-ähnliches System erstellen kann, jedoch mit der Fähigkeit, visuelle Inhalte zu verstehen und zu erstellen. Der Aufbau eines solchen Systems würde jedoch eine beträchtliche Menge an Informationen und Verarbeitungsleistung erfordern.
Neue Schnittstelle geschaffen
Eine neue Microsoft-Studie schlägt eine Lösung für dieses Problem vor. Entwickelt von einem Team aus Forschern, kombiniert das System verschiedene Visual-Foundation-Modelle, um eine Schnittstelle zu schaffen, die nicht nur Sprachen, sondern auch Bilder versteht. Visual-ChatGPT ermöglicht es Benutzern, komplexe visuelle Fragen zu stellen und visuelle Bearbeitungsanweisungen zu geben.
Die Forscher entwarfen eine Reihe von Eingabeaufforderungen, um die visuellen Modellinformationen in ChatGPT einzufügen. Dabei berücksichtigten sie Modelle mit mehreren Eingaben und Ausgaben und Modelle, die visuelles Feedback erfordern. Experimente zeigten, dass Visual-ChatGPT in der Lage ist, komplexe visuelle Aufgaben auszuführen und eine bemerkenswerte Konversationskompetenz und Argumentationsfähigkeiten in vielen Bereichen bietet.
Auf GitHub ist Visual-ChatGPT frei zugänglich. Außerdem veröffentlichten die Wissenschaftler ein Paper, in dem ihre Vorgehensweise und die Funktionalität des Systems noch einmal ausführlich beschrieben werden.