DeepMind創新V2A技術:AI智能生成影片配樂的未來趨勢

Featured Image
DeepMind,Google的AI研究實驗室,表示正在開發用於生成視頻配樂的AI技術。DeepMind在其官方博客上表示,他們將這項技術命名為V2A(即“視頻到音頻”),並將其視為AI生成媒體拼圖中不可或缺的一部分。儘管許多組織(包括DeepMind在內)已經開發出可以生成視頻的AI模型,但這些模型無法生成與視頻同步的音效。“視頻生成模型發展迅猛,但許多現有系統只能生成無聲輸出,”DeepMind寫道。“V2A技術可能成為使生成的電影生動起來的一種有希望的方法。”DeepMind的V2A技術通過使用配樂描述(例如“水下脈動的水母,海洋中的生物,大海”)與視頻相結合,生成與視頻的角色和氛圍相匹配的音樂、音效甚至對話,並由DeepMind的防止深度偽造的SynthID(該AI模型為V2A提供動力)進行水印處理。DeepMind表示,V2A技術通過結合聲音和對話文本以及視頻片段來進行訓練。“通過對視頻、音頻和附加標註進行訓練,我們的技術學會了將特定的音頻事件與各種視覺場景相關聯,同時對標註或文本中提供的信息作出反應,”DeepMind表示。目前還不清楚訓練數據中是否存在任何受版權保護的內容,以及數據的創作者是否被告知了DeepMind的工作。我們已聯繫DeepMind以獲得澄清,如果有回應,將更新此帖子。AI驅動的聲音生成工具並不新鮮。Start-up Stability AI在去年推出了一款,而ElevenLabs也在去年推出了一款。同樣,創建視頻音效的模型也是如此。微軟可以從靜態圖像生成說話和唱歌的視頻,而像Jukin Media和Unsplash這樣的平台則訓練了模型,根據特定場景猜測應該使用哪種音樂或音效。DeepMind聲稱,他們的V2A技術之所以獨特,是因為它可以理解視頻中的原始像素,並自動將生成的聲音與視頻同步,可選擇不使用配樂描述。V2A並不完美,DeepMind也承認了這一點。由於基礎模型沒有在很多具有瑕疵或扭曲的視頻上進行訓練,所以它無法為這些視頻創建出高質量的音頻。而且一般來說,生成的音頻並不是非常令人信服;我的同事Natasha Lomas將其描述為“一個典型音效的大雜燴”,我不能不同意。出於這些原因,以及為了防止誤用,DeepMind表示暫時不會向公眾發布這項技術。“為了確保我們的V2A技術能對創意社區產生積極影響,我們正在收集來自領先的創作者和電影製片人的多樣化觀點和見解,并利用這些寶貴的反饋來指導我們持續的研究和開發,”DeepMind寫道。“在我們考慮向廣大公眾開放之前,我們的V2A技術將接受嚴格的安全評估和測試。”DeepMind將其V2A技術定位為尤其適用於檔案保管員和處理歷史素材的人士的工具。但是,這類生成性AI也有可能顛覆電影和電視行業。要確保生成性媒體工具不會消除就業機會,或者更糟的是,消除整個行業,需要一些非常強有力的勞工保護措施。

Share this content: