DeepMind是Google的AI研究實驗室,表示他們正在開發用於視頻配樂的AI技術。在官方博客中,DeepMind表示他們將這項技術(簡稱為“video-to-audio”或V2A)視為AI生成媒體拼圖中的一個關鍵部分。儘管許多組織已經開發了視頻生成的AI模型,但這些模型無法創建與生成的視頻同步的音效。“視頻生成模型正在以驚人的速度發展,但是許多現有系統只能生成無聲的輸出,”DeepMind寫道。“V2A技術可能成為使生成的電影變得生動的一種有前景的方法。”DeepMind的V2A技術將音軌的描述(例如“水下脈動的水母,海洋生物,海洋”)與視頻配對,創建與視頻中的角色和調性相匹配的音樂、音效甚至對話。DeepMind的V2A技術由SynthID提供支持,SynthID是一種抵抗深度偽造的AI模型。根據DeepMind的說法,V2A的AI模型通過對聲音和對話文本以及視頻剪輯的綜合訓練而得到,該技術通過訓練學會將特定的音頻事件與各種視覺場景相關聯,同時對提供的注釋或文本信息作出反應。目前還不清楚訓練數據中是否包含有版權的內容,以及數據的創作者是否被告知DeepMind的工作。我們已經聯繫DeepMind以獲取進一步的澄清,如果有回應,我們將更新這篇文章。AI生成音效的工具並不新奇。Stability AI創立的初創公司去年剛推出了一種,而ElevenLabs也推出了一種類似的工具。同樣,創建視頻音效的模型也並不罕見。微軟可以根據靜態圖像生成說話和唱歌的視頻,而像Jukin Media和Unsplash這樣的平台則訓練了模型,可以根據視頻場景最佳猜測適合的音樂或音效。DeepMind聲稱他們的V2A技術在於它能夠理解視頻中的原始像素並自動將生成的音效與視頻同步,甚至無需描述。然而,V2A並不完美,DeepMind也承認了這一點。由於底層模型在訓練時並沒有使用大量包含瑕疵或失真的視頻,因此它無法為這些視頻生成特別高質量的音頻。一般情況下,生成的音頻並不是非常令人信服;我的同事Natasha Lomas形容它為“一個典型音效的大雜燴”,我不能不同意。出於這些原因,並為了防止被誤用,DeepMind表示他們不會很快或可能永遠不會向公眾公開這項技術。“為了確保我們的V2A技術對創意社區產生積極影響,我們正在收集領先創作者和電影製片人的多樣化觀點和見解,並使用這些寶貴的反饋信息來指導我們不斷的研究和開發工作,”DeepMind寫道。“在我們考慮向廣大公眾開放之前,我們的V2A技術將經過嚴格的安全評估和測試。”DeepMind將他們的V2A技術推銷為尤其適用於檔案保管人和處理歷史素材的人士的工具。但是,這類生成式AI也威脅著電影和電視行業。要確保生成媒體工具不會消除就業機會,或者在某種情況下,整個行業,需要嚴格的勞工保護措施。
快去TechCrunch報名參加加州舉辦的2024年舊金山Disrupt科技盛會,贏得10萬美元和展示機會!
Share this content: