Schon lange wird befürchtet, dass Deepfake-Videos irgendwann von der Realität nicht mehr zu unterscheiden sind. Doch bisher blieben diese Befürchtungen eher „Wunschdenken“, denn bislang wirkten solche KI-Videos oft eher hölzern. Die Betonung liegt jedoch auf bislang: Mit dem neuen Video-Tool VASA-1 zeigt Microsoft nun, dass es auch anders geht.
Minimaler Input für maximalen Output
Ihr werdet es kaum glauben: Ein einziges Foto und ein Audio-Clip genügen, um ein Video zu erstellen, das euch sprachlos machen wird. Das Ganze nennt sich VASA-1 und wurde von Microsoft als Modell kreiert – mit verblüffenden Ergebnissen.
Was kann VASA-1 wirklich?
Laut Microsoft kann VASA-1 nicht nur perfekt mit dem Ton synchronisierte Lippenbewegungen, sondern auch die passende Mimik und natürliche Kopfbewegungen erzeugen, was die Lebendigkeit der Videos erhöht. Besonderes Highlight seien laut Microsoft zudem das in einem latenten Gesichtsraum arbeitende, ganzheitliche Modell zur Erzeugung von Gesichts- und Kopfbewegungen sowie die Entwicklung eines solchen Gesichtsraums basierend auf Videoaufnahmen.
Das bedeutet, dass VASA-1 weit – um nicht zu sagen SEHR WEIT – über die Imitation bloßer Lippenbewegungen hinaus geht und den virtuellen Charakteren durch simulierte Emotionen eine höhere Glaubwürdigkeit und Tiefe verleiht. Außerdem sollen sich mit dem Modell wohl sogar die Blickrichtung, die emotionalen Verfassung und die empfundene Entfernung der Figur steuern lassen. Heftig oder?
Funktioniert VASA-1 auch mit echten Personen?
Da in diversen Beispielvideos auf der Website nur mit virtuellen Personen gearbeitet wird, ist es schwer zu beurteilen, wie gut das Ganze mit echten Menschen funktionieren würde. Microsoft zufolge handelt es sich ohnehin nur um ein Forschungsprojekt – und zwar zur Erforschung von emotionalen und visuellen Fähigkeiten virtueller, interaktiver Personen. Eine Veröffentlichung des Projekts als Produkt oder als API sei aktuell nicht geplant. Es bleibt also abzuwarten, inwieweit sich diese Entwicklung irgendwann auf dem Markt widerspiegeln könnte … Was haltet ihr von solchen Video-Tools? Habt ihr Angst vor Deepfakes? Schreibt es in die Kommentare!
Euer Geek1elf
Neueste Kommentare