Anzeige
Anzeige
News
Artikel merken

Visual-ChatGPT: Microsoft verbindet Chatbot mit Bild-KI

Künstliche Intelligenz kann nicht nur Sprachen verstehen, sondern auch Bilder. Ein neues System namens Visual-ChatGPT öffnet jetzt die Tür für die Erkundung der visuellen Fähigkeiten von KI-Modellen.

1 Min. Lesezeit
Anzeige
Anzeige

Microsoft verbindet Chatbot mit Bild-KI. (Grafik: Stable Diffusion / t3n)

In den letzten Jahren wurden bemerkenswerte Fortschritte bei der Entwicklung großer Sprachmodelle erzielt. ChatGPT ist dabei besonders hervorzuheben, da es gelehrt wird, den Gesprächskontext festzuhalten, angemessen auf Folgeanfragen zu reagieren und genaue Antworten zu generieren. Allerdings wird ChatGPT nur mit einer einzigen Sprachmodalität trainiert, was seine Fähigkeit, visuelle Informationen zu verarbeiten, einschränkt.

Anzeige
Anzeige

Gleichzeitig gibt es Visual Foundation Models (VFM), die in der Lage sind, komplexe visuelle Darstellungen zu verstehen und zu konstruieren. VFM sind jedoch weniger anpassungsfähig als Konversationssprachmodelle in der Mensch-Maschine-Interaktion.

Das Trainieren eines multimodalen Konversationsmodells ist eine natürliche Lösung, die ein ChatGPT-ähnliches System erstellen kann, jedoch mit der Fähigkeit, visuelle Inhalte zu verstehen und zu erstellen. Der Aufbau eines solchen Systems würde jedoch eine beträchtliche Menge an Informationen und Verarbeitungsleistung erfordern.

Anzeige
Anzeige

Neue Schnittstelle geschaffen

Eine neue Microsoft-Studie schlägt eine Lösung für dieses Problem vor. Entwickelt von einem Team aus Forschern, kombiniert das System verschiedene Visual-Foundation-Modelle, um eine Schnittstelle zu schaffen, die nicht nur Sprachen, sondern auch Bilder versteht. Visual-ChatGPT ermöglicht es Benutzern, komplexe visuelle Fragen zu stellen und visuelle Bearbeitungsanweisungen zu geben.

Die Forscher entwarfen eine Reihe von Eingabeaufforderungen, um die visuellen Modellinformationen in ChatGPT einzufügen. Dabei berücksichtigten sie Modelle mit mehreren Eingaben und Ausgaben und Modelle, die visuelles Feedback erfordern. Experimente zeigten, dass Visual-ChatGPT in der Lage ist, komplexe visuelle Aufgaben auszuführen und eine bemerkenswerte Konversationskompetenz und Argumentationsfähigkeiten in vielen Bereichen bietet.

Anzeige
Anzeige

Auf GitHub ist Visual-ChatGPT frei zugänglich. Außerdem veröffentlichten die Wissenschaftler ein Paper, in dem ihre Vorgehensweise und die Funktionalität des Systems noch einmal ausführlich beschrieben werden.

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Schreib den ersten Kommentar!
Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Anzeige
Anzeige