Google研究團隊開發了一種名為VLOGGER的新方法,可以生成逼真的說話人類視頻,包括頭部和手勢。該方法建立在生成擴散模型的成功基礎上,分為兩個階段。
在第一階段中,使用隨機人體到三維運動擴散模型根據輸入的音頻波形生成中間的身體運動控制。這些控制決定了目標視頻的長度內的注視、面部表情和姿勢。
第二階段涉及一個時間圖像到圖像轉換模型,它接受預測的身體控制和一個人的參考圖像,生成相應的幀。這個過程可以根據特定的身份進行條件調整,從而生成不同個體的視頻。
與以前的方法不同,VLOGGER不需要為每個人進行訓練,也不依賴於人臉檢測和裁剪。它生成完整的圖像,考慮到各種場景,如可見的軀幹和多樣的主題身份,這對於正確合成進行溝通的人類至關重要。
研究人員在三個不同的基準測試上評估了VLOGGER,並發現該模型在圖像質量、身份保留和時間一致性方面超越了其他最先進的方法。他們還收集了一個名為MENTOR的新的多樣數據集,比以前的數據集大一個數量級。該數據集用於訓練和測試模型的性能。
VLOGGER具有多種應用,包括說話人臉生成、視頻編輯和視頻翻譯。它可以生成多樣化的視頻分佈,同時保持逼真度,使其對於編輯現有視頻或將視頻翻譯為不同語言非常有用。
Share this content: