Midjourney und Stable Diffusion gehören zu den beliebtesten Text-zu-Bild-Generatoren mit KI-Support. Ihre Ergebnisse sind teils spektakulär – man erinnere sich an den Papst in extravaganter weißer Jacke – und zeigen, wozu die Technologie in der Lage ist.
Leichtgewichtige Midjourney-Alternative
Jetzt macht sich Nvidia daran, eine „leichtgewichtige“ und einfache Alternative auf den Markt zu bringen, die den Branchenschwergewichten in nichts nachstehen soll. Besonderes Merkmal: Der Code der gemeinsam mit der Universität von Tel Aviv entwickelte Bild-KI Perfusion soll gerade einmal 100 Kilobyte umfassen.
Damit würde das Tool locker auf eine Floppy Disk passen. Zudem verspricht Nvidia, dass sich die Bild-KI in nur vier Minuten trainieren lässt. Bei der Effizienz in bestimmten Bereichen soll Perfusion Midjourney und Stable Diffusion sogar übertreffen können.
Nvidias Bild-KI kommt mit Key-Locking
Eines der wichtigsten Merkmale von Nvidias neuer Bild-KI ist ein „Key-Locking“ genanntes Feature, wie Decrypt schreibt. Das ermöglicht es, dass von Nutzer:innen hinzugefügte spezifische Inhalte wie eine Katze während der Bildgenerierung mit einer allgemeineren Vorstellung von Katzen verknüpft werden.
Dadurch soll die sogenannte Überanpassung verhindert werden. Dabei würde sich die Bild-KI zu sehr auf die genauen Trainingsbeispiele konzentrieren, was die Kreativität in Bezug auf die Erzeugung neuer Versionen hemmen würde.
Darüber hinaus soll Perfusion es beherrschen, ganz verschiedene personalisierte Konzepte mit natürlichen Interaktionen in einem einzelnen Bild zu kombinieren. Bisher bestehende Tools sollen sich dabei schwertun, weil sie mit isolierten Konzepten trainiert werden.
Nvidia: Perfusion-Code kommt bald
Bisher lässt sich Perfusion allerdings nicht ausprobieren, weil Nvidia zwar das entsprechende Forschungspapier, nicht aber den Code veröffentlicht hat. Die in dem Papier gezeigten Beispiele sehen aber schon recht vielversprechend aus.