DeepMind,Google的AI研究實驗室,表示正在開發AI技術來為視頻生成配樂。DeepMind在其官方博客上表示,他們將這項技術稱為V2A(即“video-to-audio”,視頻到音頻),並將其視為AI生成媒體拼圖中的重要組成部分。儘管許多組織,包括DeepMind在內,已經開發出可以生成視頻的AI模型,但這些模型無法創建與所生成視頻同步的音效。“視頻生成模型的發展速度驚人,但許多現有系統只能生成無聲輸出。”DeepMind寫道。“V2A技術有望成為為生成的電影注入生命的有前途的方法。”DeepMind的V2A技術通過將配樂的描述(例如“水母在水下脈動,海洋生物,海洋”)與視頻匹配,創建與視頻的角色和語氣相匹配的音樂、音效甚至對話,並由DeepMind的抵抗深偽(SynthID)水印。DeepMind表示,V2A技術的AI模型是通過對聲音和對話文本以及視頻剪輯的結合進行訓練的。“通過對視頻、音頻和附加注釋的訓練,我們的技術學會了將特定的音頻事件與各種視覺場景相關聯,同時對注釋或文本中提供的信息作出反應。”DeepMind表示。對於訓練數據是否具有版權以及數據的創作者是否已經被告知DeepMind的工作,目前我們還不得而知。我們已經聯繫DeepMind以獲得澄清,如果有回應,我們將在本文中進行更新。AI動力的音頻生成工具並不新鮮。初創公司Stability AI去年推出了一款,ElevenLabs也推出了一款。創建視頻音效的模型也已經存在。微軟可以從靜態圖像生成說話和唱歌的視頻,而像Jukin Media和Unsplash這樣的平台已經訓練了模型,可以根據給定場景進行最佳猜測的音樂或效果。DeepMind聲稱,它的V2A技術之所以獨一無二,是因為它可以理解視頻中的原始像素,並自動將生成的聲音與視頻同步,可以選擇性地不使用描述。V2A並不完美,DeepMind也承認了這一點。由於基礎模型沒有在大量帶有異常或失真的視頻上進行訓練,因此它不會為這些視頻創建特別高質量的音頻。而且一般來說,生成的音頻也不是非常令人信服;我的同事Natasha Lomas將其描述為“一個充滿刻板印象的聲音大雜燴”,我不能不同意。出於這些原因,並為了防止誤用,DeepMind表示暫時不會向公眾公開該技術,如果有的話。DeepMind寫道:“為了確保我們的V2A技術對創意社區產生積極影響,我們正在從領先的創作者和電影製片人那裡收集各種觀點和見解,並利用這些寶貴的反饋來指導我們的持續研究和開發。”“在我們考慮向更廣泛的公眾開放之前,我們的V2A技術將經過嚴格的安全評估和測試。”DeepMind將其V2A技術定位為尤其適用於檔案館和處理歷史素材的工作人員的有用工具。但是,這類生成性AI也有可能顛覆電影和電視行業。要確保生成性媒體工具不會消除就業機會,或者情況可能是,從長遠來看,整個行業都將面臨威脅,將需要一些非常強大的勞工保護措施。
Share this content: