Visual-ChatGPT: Microsoft verbindet Chatbot mit Bild-KI

News

Visual-ChatGPT: Microsoft verbindet Chatbot mit Bild-KI

Künstliche Intelligenz kann nicht nur Sprachen verstehen, sondern auch Bilder. Ein neues System namens Visual-ChatGPT öffnet jetzt die Tür für die Erkundung der visuellen Fähigkeiten von KI-Modellen.

Von Brian Rotter

10.03.2023, 16:03 Uhr • 1 Min.

Visual-ChatGPT: Microsoft verbindet Chatbot mit Bild-KI — Microsoft verbindet Chatbot mit Bild-KI. (Grafik: Stable Diffusion / t3n)

In den letzten Jahren wurden bemerkenswerte Fortschritte bei der Entwicklung großer Sprachmodelle erzielt. ChatGPT ist dabei besonders hervorzuheben, da es gelehrt wird, den Gesprächskontext festzuhalten, angemessen auf Folgeanfragen zu reagieren und genaue Antworten zu generieren. Allerdings wird ChatGPT nur mit einer einzigen Sprachmodalität trainiert, was seine Fähigkeit, visuelle Informationen zu verarbeiten, einschränkt.

Gleichzeitig gibt es Visual Foundation Models (VFM), die in der Lage sind, komplexe visuelle Darstellungen zu verstehen und zu konstruieren. VFM sind jedoch weniger anpassungsfähig als Konversationssprachmodelle in der Mensch-Maschine-Interaktion.

Das Trainieren eines multimodalen Konversationsmodells ist eine natürliche Lösung, die ein ChatGPT-ähnliches System erstellen kann, jedoch mit der Fähigkeit, visuelle Inhalte zu verstehen und zu erstellen. Der Aufbau eines solchen Systems würde jedoch eine beträchtliche Menge an Informationen und Verarbeitungsleistung erfordern.

Neue Schnittstelle geschaffen

Eine neue Microsoft-Studie schlägt eine Lösung für dieses Problem vor. Entwickelt von einem Team aus Forschern, kombiniert das System verschiedene Visual-Foundation-Modelle, um eine Schnittstelle zu schaffen, die nicht nur Sprachen, sondern auch Bilder versteht. Visual-ChatGPT ermöglicht es Benutzern, komplexe visuelle Fragen zu stellen und visuelle Bearbeitungsanweisungen zu geben.

Empfehlungen der Redaktion

Tool-Tipp

Stable Diffusion direkt in Photoshop nutzen: Mit diesem Plugin klappt’s

News

OpenAI-Entwickler wundern sich, warum ChatGPT so gut ankommt

Tool-Tipp

Blender mit KI: Open-Source-Tool erzeugt Bilder aus Text

Die Forscher entwarfen eine Reihe von Eingabeaufforderungen, um die visuellen Modellinformationen in ChatGPT einzufügen. Dabei berücksichtigten sie Modelle mit mehreren Eingaben und Ausgaben und Modelle, die visuelles Feedback erfordern. Experimente zeigten, dass Visual-ChatGPT in der Lage ist, komplexe visuelle Aufgaben auszuführen und eine bemerkenswerte Konversationskompetenz und Argumentationsfähigkeiten in vielen Bereichen bietet.

Auf GitHub ist Visual-ChatGPT frei zugänglich. Außerdem veröffentlichten die Wissenschaftler ein Paper, in dem ihre Vorgehensweise und die Funktionalität des Systems noch einmal ausführlich beschrieben werden.

Mehr zu diesem Thema

MIT Technology Review Künstliche Intelligenz Microsoft Bild-KI Chatbot ChatGPT

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren