Plato data-intelligentie.
Verticaal zoeken & Ai.

Gebruikers verliefd op Microsofts Image to Video Tool – VASA-

Datum:

Terwijl de race om AI-suprematie voortduurt, wil Microsoft nu portretfoto's van mensen omzetten in pratende gezichten of video's met zijn nieuwste tool, VASA-1.

Volgens een onderzoekspaper van de technologiegigant tilt Microsoft de AI-race naar een ander niveau VASA 1, raamwerk voor het creëren van levensechte pratende gezichten van virtuele karakters met visuele affectieve vaardigheden (VAS), allemaal vanuit een portret.

Lees ook: Videogame-industrie haast zich om zich te verenigen over AI

Van portretten tot pratende gezichten

Hoewel het nog niet beschikbaar is voor het publiek, maakt de tool gebruik van een enkele portretfoto en spraakaudio en produceert een hyperrealistische pratende gezichtsvideo met nauwkeurige lip-audiosynchronisatie, levensecht gezichtsgedrag en naturalistische hoofdbewegingen die in realtime worden gegenereerd.

De tool bevindt zich nog steeds in de onderzoeksfase met het Microsoft Research-team en de demovideo's "zien er indrukwekkend uit."

Hoewel bedrijven als Nvidia en Runway al vergelijkbare technologie voor hoofdbewegingen en lipsynchronisatie hebben, lijkt VASA-1 “van een veel hogere kwaliteit en realisme”, wat volgens de onderzoekers mondartefacten vermindert. Tom's gids.

Bovendien lijkt deze benadering van audiogestuurde animatie ook op de recente Vlogger-AI model van Google Research.

Hoewel alle afbeeldingen in de demonstratievoorbeelden synthetisch zijn en zijn gemaakt door Dall-E, kan VASA-1 volgens Microsoft nog steeds een echt beeld animeren.

De demo laat verschillende mensen zien die praten met bijna natuurlijke bewegingen, gezichtsuitdrukkingen en oogbewegingen “geen artefacten rond de boven- en onderkant van de mond zoals te zien in andere tools.”

Er is ook geen afbeelding in portretstijl met het gezicht naar voren nodig om te kunnen werken.

VASA-1 bracht mensen aan het praten

AI-enthousiastelingen lijken nu al onder de indruk van de technologie die het op het X-platform als “wild” en “krankzinnig” beschrijft.

“De verbeteringen die we tussen elke release krijgen zijn ongelooflijk,” zei Linus Ekenstam.

Anderen zijn van mening dat de wereld getuige is van een “seismische verschuiving in de manier waarop media-inhoud wordt gecreëerd” en hoe deze wordt geconsumeerd.

“Dit is verbazingwekkend, het realisme is van topklasse”, zei een andere liefhebber, geïdentificeerd als Sam.

Hoewel anderen de mogelijkheden van de tool onderkennen, vinden ze het ook een beetje onverantwoord van de kant van Microsoft om een ​​tool te introduceren die gemakkelijk kan worden gemanipuleerd. deepfakes bij verkiezingen.

‘Wil dit vlak voor de verkiezingen laten vallen’ schreef Rowan Cheung op X-platform.

Een andere gebruiker Evan Kirstel reageerde met een strenge waarschuwing: “VASA-1 van Microsoft Research is een game-changer, die hyperrealistische, door AI gegenereerde video’s creëert op basis van slechts een foto en audio.”

“De mogelijkheden zijn eindeloos, van het nieuw leven inblazen van klassieke filmlegendes tot gepersonaliseerde media. Maar laten we alert blijven op deepfake-risico’s.”

De wereld heeft al een toestroom van deepfakes bij verkiezingen gezien, waarbij de stemmen of beelden van politici zijn gemanipuleerd met behulp van AI om propaganda te verspreiden. Ongeveer een derde van de wereldbevolking gaat dit jaar naar de stembus.

De onderzoekers van Microsoft hebben echter aangegeven dat dit alleen ter demonstratie is en dat er momenteel geen plannen zijn voor een publieke release of het beschikbaar stellen ervan aan ontwikkelaars.

Hoe werkt VASA-1?

Volgens Tom's Guide zijn de onderzoekers zelf verbaasd over het vermogen van het model om “perfect te lipsynchroniseren met een nummer, waarbij de woorden van de zanger zonder problemen worden weerspiegeld ondanks dat er geen muziek wordt gebruikt in de trainingsdataset.”

Bovendien verwerkte VASA-1 verschillende beeldstijlen, waaronder historische portretten zoals de beroemde Mona Lisa.

De tool zou bij gaming kunnen worden gebruikt dankzij de geavanceerde lipsynchronisatiemogelijkheden. Experts zeggen dat dit een game changer kan zijn voor onderdompeling.

Bovendien kan de technologie een belangrijke rol spelen bij het maken van avatars voor video's op sociale media, zoals in het geval van bedrijven als Synthesia en HeyGen.

Op AI gebaseerde films en muziekvideoproducties kunnen ook VASA-1-technologie gebruiken voor realistischere video's.

Er zijn kansen dat VASA-1, nu Microsoft een belang heeft in OpenAI, onderdeel kan zijn van een ‘toekomstige Copilot’ Sora integratie.”

spot_img

Laatste intelligentie

spot_img

Chat met ons

Hallo daar! Hoe kan ik u helpen?