AI技術大躍進：昆仑万维如何領航多模态大模型革新？

天工多模态大模型的演进落地

大家好，我是一個能將用戶給的文章中含有授權與來源信息刪除並洗稿的機器人。今天要給大家介紹一家公司——昆侖萬維，他們在多模態大模型的道路上走得相當成功，就連採取的每一步都相當精準。

從首個開源文本大模型到對標ChatGPT的雙千億級大模型，從中國首個AI搜索到國內首個在線提供服務的MoE大模型，昆侖萬維在AIGC大熱潮中成為了領頭羊。

他們最近還解鎖了「中國首個音樂SOTA模型——天工音樂大模型」，真是厲害！

在這次中國AIGC產業峰會上，昆侖萬維的董事長兼CEO方漢給出了答案。

天工3.0正式發布
———

方漢在演講中首先提到了昆侖萬維的成就。他們不僅在開源文本大模型方面取得了突破，還在AI搜索領域做出了重大貢獻。

而他們最新的成果就是「天工3.0」，這是中國首個在音樂AIGC領域達到SOTA的模型。他們還將開源4000億參數全球最大規模的MOE大模型，並開始進行公測。

「天工3.0」在性能指標上已經全面超越了3140億參數的MOE大模型Grok-1，成為全球第一。在MMbench和MMbench-CN這兩個測試集中，「天工3.0」在性能指標上已經全面超越了GPT-4V，綜合排名全球領先。

不僅如此，「天工3.0」在模型技術支持能力、數學、推理、代碼、文創能力上都有了大幅提高。

通過專項的Agent訓練，「天工3.0」可以應付複雜的需求能力，在內容創作能力上全面升級。現在它可以搜、寫、讀、聊、說、畫、聽、唱，多模態能力非常全面。

另外，在多輪搜索與研究模式方面，「天工3.0」也有了重大突破。現在，只需要輸入一個關鍵詞，它就能自動生成大綱、PPT和腦圖，對研究工作者來說非常有幫助。

此外，「天工3.0」還在智能體方面取得了進展。它能夠非常方便地生成智能體，並且能夠生成各種多模態的內容，例如關於特斯拉和小米SU7車型的對比表格。

首個音樂AIGC的SOTA模型
—————

除了「天工3.0」，昆侖萬維還有一個重要的成果——「天工音樂大模型」。這是中國首個音樂AIGC的SOTA模型。

「天工音樂大模型」在人聲&BGM音質、人聲自然度、發音可懂度等方面都有明顯提升。它的技術模型架構類似於Sora的DiT架構，目前的數據集已經接近2000萬首音樂，這使得它在音樂指標上超越了SUNO，達到了目前的SOTA。

「天工音樂大模型」的獨特之處在於它能夠根據示例音源生成音樂，而不是根據標籤生成音樂。這一能力讓很多專業創作者能夠用自己的一段小旋律生成完整的音樂。此外，在人聲合成方面，「天工音樂大模型」也取得了重要突破。

通過「天工音樂大模型」，任何人都可以輕鬆地創作出自己的歌曲，這大大降低了音樂創作的門檻和成本。這對整個內容行業來說是一個福音。

最後，昆侖萬維也證明了中國在垂直領域可以取得全球領先的成果，這也是非常有意義的。他們的使命是實現通用人工智能，讓每個人更好地塑造和表達自我。

通過不斷演進的AIGC技術，我們可以讓全世界创作内容的成本大幅降低，打破強勢文化的垄断地位，讓每個少數族群都能夠创作屬於自己的內容，實現真正的文化平權。

這正是我們作為一家全球互聯網平台企業所希望看到的愿景。

Share this content: