Platão Inteligência de Dados.
Pesquisa Vertical e AI.

Usuários apaixonados pela ferramenta Image to Video da Microsoft – VASA-

Data:

À medida que a corrida pela supremacia da IA ​​continua, a Microsoft quer agora transformar retratos de pessoas em rostos falantes ou vídeos com a sua mais recente ferramenta, VASA-1.

De acordo com um artigo de pesquisa da gigante da tecnologia, a Microsoft está levando a corrida da IA ​​para outro nível, com VASA 1, estrutura para criar rostos falantes realistas de personagens virtuais com habilidades afetivas visuais (VAS), tudo a partir de um retrato.

Veja também: A indústria de videogames corre para se sindicalizar por meio da IA

De retratos a rostos falantes

Embora ainda não esteja disponível ao público, a ferramenta tira uma única foto de retrato e áudio de fala e produz um vídeo hiper-realista de rosto falante com sincronização precisa de áudio labial, comportamento facial realista e movimentos naturalistas da cabeça gerados em tempo real.

A ferramenta ainda está em fase de visualização de pesquisa com a equipe de pesquisa da Microsoft, e os vídeos de demonstração “parecem impressionantes”.

Embora empresas como Nvidia e Runway já tenham movimento de cabeça e tecnologia de sincronização labial semelhantes, o VASA-1 parece “ter qualidade e realismo muito mais elevados”, o que reduz artefatos bucais, de acordo com Guia do Tom.

Além disso, esta abordagem à animação orientada por áudio também é semelhante à recente IA do vlogger modelo da Google Research.

Segundo a Microsoft, embora todas as imagens nos exemplos de demonstração sejam sintéticas criadas por Dall-E, o VASA-1 ainda pode animar uma imagem real.

A demonstração mostra diferentes pessoas conversando com movimentos, expressões faciais e movimentos oculares quase naturais, “sem artefatos na parte superior e inferior da boca vistos em outras ferramentas”.

Também não requer uma imagem estilo retrato voltada para a frente para funcionar.

VASA-1 fez as pessoas falarem

Os entusiastas da IA ​​já parecem impressionados com a tecnologia, descrevendo-a como “selvagem” e “insana” na plataforma X.

“As melhorias que estamos obtendo entre cada lançamento são incríveis,” dito Linus Ekenstam.

Outros consideram que o mundo está a testemunhar uma “mudança sísmica na forma como o conteúdo dos meios de comunicação social é criado” e como é consumido.

“Isso é alucinante, o realismo é de primeira qualidade”, disse outro entusiasta identificado como Sam.

Embora outros reconheçam as capacidades da ferramenta, eles também acham que é um pouco irresponsável por parte da Microsoft introduzir uma ferramenta que pode ser facilmente manipulada para deepfakes eleitorais.

“É um desejo louco abandonar isso logo antes da eleição”, escreveu Rowan Cheung na plataforma X.

Outro usuário Evan Kirstel comentou com um aviso severo: “O VASA-1 da Microsoft Research é uma virada de jogo, criando vídeos hiper-realistas gerados por IA a partir de apenas uma foto e áudio.”

“As possibilidades são infinitas, desde reviver lendas clássicas do cinema até mídias personalizadas. Mas vamos ficar alertas aos riscos de deepfake.”

O mundo já viu um influxo de deepfakes eleitorais, onde as vozes ou imagens dos políticos foram manipuladas usando IA para espalhar propaganda. Cerca de um terço da população mundial vai às urnas este ano.

No entanto, os pesquisadores da Microsoft indicaram que isso é apenas para demonstração e atualmente não há planos para um lançamento público ou para disponibilizá-lo aos desenvolvedores.

Como funciona o VASA-1?

De acordo com o Tom's Guide, os próprios pesquisadores estão surpresos com a capacidade do modelo de “sincronizar perfeitamente os lábios de uma música, refletindo as palavras do cantor sem problemas, apesar de nenhuma música ter sido usada no conjunto de dados de treinamento”.

Além disso, o VASA-1 lidou com diferentes estilos de imagem, incluindo retratos históricos como o famoso Mona Lisa.

A ferramenta pode ser usada em jogos com base em suas habilidades avançadas de sincronização labial. Isso, dizem os especialistas, pode ser uma virada de jogo para a imersão.

Além disso, a tecnologia pode ser fundamental na criação de avatares para vídeos nas redes sociais, como é o caso de empresas como Synthesia e HeyGen.

Filmes e produções de videoclipes baseados em IA também podem aproveitar a tecnologia VASA-1 para vídeos mais realistas.

Há chances de que, com a Microsoft tendo uma participação na OpenAI, o VASA-1 possa fazer parte de um “futuro Copiloto”. Sora integração."

local_img

Inteligência mais recente

local_img

Fale Conosco

Olá! Como posso ajudá-lo?