Anzeige
Anzeige
News

Update für ChatGPT: OpenAI verpasst dem KI-Chatbot Ohren, Augen und eine Stimme

OpenAI spendiert ChatGPT neue Fähigkeiten. Der KI-Chatbot kann jetzt sprechen, hören und sehen. Nutzer:innen sollen sich nach dem Update mit ChatGPT theoretisch wie bei einem Videocall in Echtzeit über Bilder unterhalten können.

3 Min.
Artikel merken
Anzeige
Anzeige
ChatGPT unterhält sich jetzt mir dir. (Foto: Meir Chaimowitz/Shutterstock)

Es ist eines der größten Updates, die ChatGPT seit seinem Release im November 2022 erhält. OpenAI verpasst seinem populären KI-Chatbot zwei neue Möglichkeiten, mit Nutzer:innen zu interagieren. Oder wie der Anbieter schreibt: „ChatGPT kann jetzt sehen, hören und sprechen“.

Anzeige
Anzeige

ChatGPT: Unterhaltung mit KI-Chatbot

Die neuen Sprach- und Bildfähigkeiten sollen es Nutzer:innen künftig ermöglichen, intuitiver mit ChatGPT zu kommunizieren. So soll eine Art „mündliche“ Unterhaltung mit dem KI-Chatbot möglich sein.

Außerdem soll man ChatGPT „zeigen“ können, worüber man gerade spricht. Etwa, indem man das Bild einer Landschaft hochlädt und sich über deren Schönheit unterhält.

Anzeige
Anzeige

Rezepte auf Basis von Bildern

Weitere von OpenAI vorgeschlagene Nutzungsoptionen umfassen das Aufnehmen und Hochladen von Bildern des Kühlschranks oder der Speisekammer – mit anschließender Diskussion über das mögliche Abendessen und Rezepte mit Schritt-für-Schritt-Anleitung.

Ebenfalls möglich sein soll es, die Hausaufgaben der Kinder abzufotografieren und sich Lösungshinweise geben zu lassen. Oder man fotografiert ein kaputtes Gartengerät und lässt sich bezüglich der Reparaturmöglichkeiten beraten.

Anzeige
Anzeige

Dall-E 3 in ChatGPT integriert

Darüber hinaus soll ChatGPT dank der Integration der Text-zu-Bild-KI Dall-E 3 künftig auch Bilder selbst generieren können. Die Sprachfähigkeiten wiederum können Nutzer:innen etwa einsetzen, um sich Bettgeschichten erzählen oder einen Streit beilegen zu lassen.

Nutzer:innen können für ChatGPT aus verschiedenen Stimmen wählen, die mit Hilfe von professionellen Schauspieler:innen generiert wurden. Damit die gesprochenen Worte der Nutzer:innen in für ChatGPT verstehbaren Text umgewandelt werden, kommt unter anderem OpenAIs Spracherkennungssystem Whisper zum Einsatz.

Anzeige
Anzeige

Übersetzungstool für Spotify-Podcasts

Um ChatGPTs Antworten in sprachlicher Form ausgeben zu können, hat OpenAI ein neues Text-to-Speech-Modell entwickelt. Dieses Tool steht schon einigen anderen Firmen zu Nutzung zur Verfügung. Darunter Spotify, das daraus ein Übersetzungstool für Podcasts gebastelt hat. Dabei werden die Originalstimmen der Hosts in den verschiedenen übersetzten Sprachen wie Spanisch, Französisch und Deutsch ausgegeben.

Für die ChatGPT-Nutzung weist OpenAI daraufhin, dass die neuen Funktionen nur auf Englisch gut nutzbar sind. Den potenziellen Missbrauch der Sprachfähigkeiten des KI-Chatbots durch Betrüger:innen will das Unternehmen durch die Schaffung der auswählbaren Stimmen umgangen haben.

OpenAI: Probleme bei der Bilderkennung

Auch mit möglichen Probleme durch die Bilderkennung hat sich OpenAI in den vergangenen Monaten auseinandergesetzt. Während ChatGPT auf Fragen wie „Wie bastele ich eine Bombe?“ nicht antwortet, hätte dieser Schutz mit dem Bild einer Bombe und der Frage „Wie bastele ich das auf dem Bild zu sehende Objekt“ umgangen werden können, wie MIT Technology Review erklärt.

Anzeige
Anzeige

Auch potenziellen Schlupflöchern wie diesen musste OpenAI vor der Veröffentlichung der neuen Funktionen einen Riegel vorschieben. Der ChatGPT-Anbieter scheint jedenfalls sicher zu sein, dass solche und ähnliche Probleme ausgeräumt sind.

Jobsuche: Diese KI-Apps erstellen deine Bewerbungsmappe Quelle: Dean Drobot / Shutterstock

Die Sprach- und Bilderkennungsfunktionen sollen in den kommenden zwei Wochen für alle Pro- und Enterprise-Nutzer:innen von ChatGPT verfügbar sein. Allerdings wird nur die Bilderkennung auf allen Plattformen zugänglich sein. Die Sprachfeatures sind auf die App (iOS und Android) beschränkt.

Neue Funktion in Einstellungen freigeben

Dazu müssen Nutzer:innen in den Einstellungen, unter Neue Funktionen, die Sprachunterhaltungen freigeben. Eine der fünf aktuell angebotenen Stimmvarianten kann man dann durch einen Fingertipp auf das Kopfhörersymbol rechts oben auswählen.

Anzeige
Anzeige

Um ein Foto hochzuladen, klickt man auf das entsprechende Icon. In der App muss man davor noch auf den „Plus“-Button tippen. Dann ist es auch möglich, über mehrere Fotos zu diskutieren oder das integrierte Malprogramm zu nutzen, um auf bestimmte Inhalte hinzuweisen.

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
2 Kommentare
Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Jack Kuhn

wobei man die Gefahren von KI nicht unterschätzen sollte. Da die Aussagen nicht stimmen müssen.
Ok wenn man bestehende Texte bearbeiten lässt, dann kann eine KI viele Vorteile bringen.
Umformulieren, Texte analysieren etc.

Wenn es z.B. um die Gesundheit geht und man die KI als Beratung einsetzt kann es gefährlich werden.
KI sollte immer richtig eingesetzt werden.
Übrigens Open AI gibt keine Quelle an?
Wie soll dann das Internet weiterhin funktionieren, wenn die Textersteller nichts davon haben?

Google macht dies halt viel besser, mit Quellenangabe und auch an die Texter gedacht?

Antworten
Maria Rosa

Die Verbindung vonm Wissen in unterschiedlichen Bereiche des Lebens wird besser, schneller und wenn wir wollen demokratischer.Deine Gedanken in einer Art von Fusion mit der Sprache wird kommen.Die Neurolinguistik hat viel zu lernen..
In den Schulen wird das permanente Lernen angesagt.

Antworten

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Anzeige
Anzeige