Derzeit erscheinen beinahe täglich neue KI-Anwendungen zum Erzeugen von Fotos und Videos. Kürzlich ist als erste Alpha Version 6 des Bildgenerators
Midjourney gestartet. Sie soll laut der Entwickler realistischere Bilder erlauben und die Einbindung von Text verbessern. Zugang haben aber vorerst nur zahlende Nutzerinnen und Nutzer (33 Euro/Monat), die bisher schon mindestens 10.000 Bilder generiert haben. Auch Google legt nach, mit seiner neuen Software
VideoPoet zum Generieren von Videos. Im Gegensatz zum aktuell üblichen Verfahren, bei dem das visuelle Modell "Diffusion" für Fotos und Videos verwendet wird, setzt Google auf ein textbasiertes Large Language Model (LLM).
Diese Technologie kommt ansonsten eher für Chatbots wie ChatGPT oder für Programmiercode zum Einsatz. Google hat "VideoPoet LLM" aber mit 270 Millionen Filmclips und über einer Milliarde Text-Bild-Kombinationen auf das Erzeugen von Videos aus Text und aus Fotos trainiert. Die Ergebnisse auf der Demo-Website fallen so erstaunlich gut aus, dass den Experten von VentureBeat "die Kinnlade runterfällt".
Der Video-Poet wurde speziell für das Erzeugen von vertikalen Videos entwickelt. Die Ergebnisse im Hochformat eignen sich damit ideal für die Smartphone-Welt von Tiktok und Youtube Shorts. Selbst testen lässt sich das allerdings noch nicht. Eine Version für die Öffentlichkeit hat Google noch nicht freigegeben, der Startermin ist bisher unklar.