柏拉圖數據智能。
垂直搜索和人工智能。

使用者被微軟的影像轉影片工具 – VASA-迷住了

日期:

隨著人工智慧霸主地位的競爭仍在繼續,微軟現在希望利用其最新工具 VASA-1 將人們的肖像照片轉換為會說話的面孔或影片。

根據這家科技巨頭的研究論文,微軟正在將人工智慧競賽提升到另一個水平, 瓦薩 1,用於創建具有視覺情感技能(VAS)的虛擬角色的逼真說話面孔的框架,全部來自肖像。

另請閱讀: 電玩產業急於就人工智慧問題組成工會

從肖像到會說話的臉孔

儘管該工具尚未向公眾開放,但它可以拍攝單張肖像照片和語音音頻,並生成超現實的說話臉部視頻,具有精確的唇音同步、逼真的面部行為以及實時生成的自然頭部運動。

該工具仍處於微軟研究團隊的研究預覽階段,演示影片「看起來令人印象深刻」。

據介紹,雖然 Nvidia 和 Runway 等公司已經擁有類似的頭部運動和口型同步技術,但 VASA-1 似乎“具有更高的品質和真實感”,這減少了嘴部偽影。 湯姆指南.

此外,這種音訊驅動動畫的方法也類似於最近的 視訊部落客人工智慧 谷歌研究的模型。

據微軟稱,雖然演示範例中的所有圖像都是由 Dall-E 合成的,但 VASA-1 仍然可以為真實圖片製作動畫。

該演示展示了不同的人以幾乎自然的動作、面部表情和眼睛運動進行交談,“在其他工具中沒有看到嘴頂部和底部周圍的偽影。”

它也不需要正面肖像風格的圖像即可運作。

VASA-1 讓人們議論紛紛

人工智慧愛好者似乎已經被 X 平台上的這項技術迷住了,他們將其描述為「狂野」和「瘋狂」。

“我們在每個版本之間獲得的改進令人難以置信,” 說過 萊納斯‧埃肯斯坦。

其他人則認為,世界正在見證「媒體內容創建方式及其消費方式的巨大轉變」。

「這太令人興奮了,真實感是一流的,」另一位名叫 Sam 的愛好者說。

儘管其他人認可該工具的能力,但他們也認為微軟推出一個容易被操縱的工具有點不負責任。 選舉深度造假.

“在選舉前就放棄這個是很瘋狂的,” 寫道: X平台上的Rowan Cheung。

另一個用戶 埃文·克斯特爾 評論中嚴厲警告道:“微軟研究院的 VASA-1 是一個遊戲規則改變者,它僅通過照片和音頻即可創建超現實的人工智能生成視頻。”

「從復興經典電影傳奇到個人化媒體,可能性是無限的。但讓我們對深度造假風險保持警惕。

世界上已經出現大量選舉深度造假事件,政客的聲音或影像被人工智慧操縱以傳播宣傳。今年全球約有三分之一的人口將參加投票。

然而,微軟的研究人員表示這只是為了演示,目前沒有計劃公開發布或向開發人員提供。

VASA-1 如何運作?

根據 Tom's Guide 報導,研究人員自己對該模型「與歌曲完美口型同步,毫無問題地反映歌手的歌詞,儘管訓練資料集中沒有使用音樂」的能力感到驚訝。

此外,VASA-1 還可以處理不同的圖像風格,包括著名的歷史肖像 蒙娜麗莎.

該工具憑藉其先進的口型同步功能可用於遊戲。專家表示,這可能會改變沉浸感。

此外,該技術還有助於為社交媒體影片創建頭像,例如 Synthesia 和 HeyGen 等公司。

基於 AI 的電影和音樂錄影帶製作還可以利用 VASA-1 技術製作更逼真的影片。

隨著微軟入股 OpenAI,VASA-1 有可能成為「未來副駕駛」的一部分 一體化。”

現貨圖片

最新情報

現貨圖片

和我們線上諮詢

你好呀!我怎麼幫你?