昆仑万维引领:多模态大模型「天工3.0」技術突破全解析

Featured Image
天工多模態大模型的演進落地

天工多模態大模型的發展可謂是愈演愈烈,包括文生圖、文生音頻、文生視頻、AI搜索引擎等等。

在國內,有這麼一家公司在AIGC大熱潮的前後,不僅僅是做到了“首個”,還佔了四席之多:

1. 發布中國首個開源文本大模型
2. 國內首個對標ChatGPT的雙千億級大模型
3. 中國首個AI搜索
4. 國內首個在線提供服務的MoE大模型

沒錯,就是**昆侖萬維**,最近還解鎖了“中國首個音樂SOTA模型——天工音樂大模型”。

那麼,昆侖萬維是如何在多模態大模型的道路上不斷演進的呢?為什麼能夠如此精準地邁出每一步?

在本次中國AIGC產業峰會上,**昆侖萬維董事長兼CEO方漢**對此進行了詳細解答。

![Image 1: 解密中國首個“音樂版Sora” | 中國AIGC產業峰會](https://www.qbitai.com/wp-content/uploads/replace/2bfc4e792ebf5cb49ef885b392ab20db.png)

為了保持方漢演講的完整性,在不改變原意的基礎上,量子位對其內容進行了編輯整理,希望能給大家帶來更多啟發。

中國AIGC產業峰會是由量子位主辦的行業峰會,共有20位產業代表參會討論。現場觀眾近千人,線上直播觀眾300萬,獲得了主流媒體的廣泛關注與報道。

話題要點
—-

* 天工3.0發布,全面超越MoE大模型Grok-1
* 天工3.0在多輪搜索、搜索“研究模式”、智能體方面能力提升
* 中國首個音樂AIGC的SOTA模型
* ……

以下是方漢演講的全文:

天工3.0正式發布
———

我今天的演講主題是“天工多模態大模型的演進落地”。

大家都知道,昆侖萬維從2022年12月發布了中國首個開源文本大模型,到2023年4月17日發布了“天工1.0”,再到2023年8月23日發布了國內首個AI搜索產品——天工AI搜索。

![Image 2: 解密中國首個“音樂版Sora” | 中國AIGC產業峰會](https://www.qbitai.com/wp-content/uploads/replace/14dd31662e69d9b9c02a03b27d5003bd.png)

而今天,我們正式發布了**“天工3.0”**,這是中國首個在音樂AIGC領域達到SOTA的模型。同時,我們將開源4000億參數全球最大規模的MOE大模型,並啟動公測。

首先,「天工3.0」目前的性能已經全面超越了3140億參數的MOE大模型Grok-1,成為全球第一,這兩個大模型目前都是開源的。

![Image 3: 解密中國首個“音樂版Sora” | 中國AIGC產業峰會](https://www.qbitai.com/wp-content/uploads/replace/39492f0301b164d7ba8dabbfa05d23b5.png)

從我們在MMbench和MMbench-CN這兩個測試集中的性能指標來看,我們已經全面超越了GPT-4V,在綜合排名上全球領先。

![Image 4: 解密中國首個“音樂版Sora” | 中國AIGC產業峰會](https://www.qbitai.com/wp-content/uploads/replace/66187e4087bc203ea3f885bd57acbd21.png)

「天工3.0」在模型技術支持能力上提升超過20%,在數學、推理、代碼、文創能力上提升超過30%。

通過專項的Agent訓練,可以應付複雜的需求能力,在內容創作能力上全面升級,目前能搜能寫能讀能聊能說能畫能聽能唱,在多模態能力上非常全面。

接下來可以看到,「天工3.0」在**多輪搜索與綜合工具的調用能力**方面有了大幅提升。

例如,搜索“成都迪士尼怎麼去”,大家知道,“成都迪士尼”是個梗,我們能夠準確識別出來“成都迪士尼”是成都的一個小區,同時,大模型會把“成都迪士尼”的攻略生成出來之後,還會把它總結成一個攻略。

再比如,在問天氣怎麼樣的時候,大模型會把上海的天氣以卡片的形式展現給用戶,最後生成相對應的圖片。

![Image 5: 解密中國首個“音樂版Sora” | 中國AIGC產業峰會](https://www.qbitai.com/wp-content/uploads/replace/1d6e41235b29ef770ee3ee54e100be69.png)

再來看一下 「天工3.0」在搜索能力上的**“研究模式”**,學生在閱讀文獻的時候,需要總結大綱,再自己畫腦圖。

![Image 6: 解密中國首個“音樂版Sora” | 中國AIGC產業峰會](https://www.qbitai.com/wp-content/uploads/replace/b999d3628e351bfd1d9104920370fac9.png)

在以前這類工作非常繁瑣,現在我們可以自動對搜索內容進行總結、自動生成大綱、拷貝到PowerPoint,就能自動生成PPT,同時最後再自動生成腦圖。這對所有的研究工作者非常有幫助。

下面我們看一下「天工3.0」在**智能體**方面的進展,大家可以很方便地通過非代碼的形式生成智能體,我們現在生成的智能體在使用之後,可以生成一個關於特斯拉和小米SU7車型對比的表格,而且是多模態的生成,這非常方便。

![Image 7: 解密中國首個“音樂版Sora” | 中國AIGC產業峰會](https://www.qbitai.com/wp-content/uploads/replace/a6a7fff9034e8ca79fd436f1ba876720.png)

首個音樂AIGC的SOTA模型
—————

目前,昆侖萬維以AI大模型為底座,已經擁有AI社交、AI遊戲、AI搜索、AI大模型、AI音樂、AI視頻等六大業務矩陣。

我再給大家分享一下多模態大模型天工SkyMusic,這是目前**首個音樂AIGC的SOTA模型**。給大家聽一下案例,這是庞博(喜劇明星)利用天工AI音樂創作的一首歌曲。

![Image 8: 解密中國首個“音樂版Sora” | 中國AIGC產業峰會](https://www.qbitai.com/wp-content/uploads/replace/3e7ee48a5c68c2a553593f52f9e81e14.png)

我們天工SkyMusic與SONO V3的版本對比,首先,在人聲和BGM音質、人聲自然度、發音可懂度等方面都有明顯提升。

我們這個技術模型的架構類似Sora的DiT架構,目前數據集已經接近2000萬首音樂,這才能在音樂指標上超過SUNO,達到目前的SOTA,也就是技術指標第一。

![Image 9: 解密中國首個“音樂版Sora” | 中國AIGC產業峰會](https://www.qbitai.com/wp-content/uploads/replace/64fb3795933f0bc630525c4d2403d0d3.png)

我們獨家優勢在於根據示例音源生成音樂的能力,而不是根據標籤來生成音樂。

根據示例音源生成音樂的能力可以讓很多專業創作者用自己的一段小旋律生成完整的音樂,同時在人聲合成方面支持單一語種方案輸出能力,目前已經支撐粤語、四川話、北京話、上海話等多個方言。

最後,我們生成更具辨識度的自然人聲,大家都知道如何區分每個歌手的人聲,在合成上是有比較大的技術難度,我們目前基本上可以根據輸入的語音達到更好的克隆。

目前天工SkyMusic音樂創作能力,首先,能夠極大降低音樂創作門檻,人人皆可以歌明志。

大家可以看到,今天在我們公測的天工SkyMusic的功能下方,網友們創作的歌曲非常多,創作形式也非常多樣。

之前製作一首歌的成本非常昂貴,因為首先要有音樂的基礎能力,才能去作曲、才能編曲,還要有樂隊幫助你去演奏合成,最後還得有專業的演唱能力,才能完成一首歌的制作。

通過天工SkyMusic,一個人只要花幾分鐘時間就可以完整創作出一首可以發布的歌曲,這樣極大降低了音樂創作門檻。讓每個人都可以創作出自己的歌曲。

同時,極大降低了音樂創作成本,對於所有內容行業來說都是一個福音。大家知道,在各行各業使用音樂的地方非常多。

以前都有著比較昂貴的授權費用,而現在可以通過AI生成音樂,成本可以迅速從數萬塊錢降到幾分錢。

最後,我們也證明了中國研發可以在垂直領域做到全球的SOTA,這也是非常有意義的。大家知道,SOTA這個詞是“State of the art”的縮寫,意思是技術指標第一。

OpenAI為什麼現在是全球估值最高的大模型企業?

因為在文本大模型以及視頻生成大模型方面,它一直是全球的SOTA。對於中國公司來說,能否在垂直領域取得SOTA,也是企業能夠獲得技術紅利的一個重要因素。

最後我和大家分享一下,昆侖萬維的使命與目標,是實現通用人工智能,讓每個人更好地塑造和表達自我。

![Image 10: 解密中國首個“音樂版Sora” | 中國AIGC產業峰會](https://www.qbitai.com/wp-content/uploads/replace/913a8664c5e3fdd5eff1bb51657559b9.png)

為什麼我們把這個分成了兩段?

實現通用人工智能就是對標AGI,我們堅信通過文本大模型和多模態大模型的不斷演進,一定能夠實現通用人工智能;但與此同時,我們也可以通過AIGC能力的不斷拓展,讓每個人更好地塑造和表達自我。

我們可以看到從文本生成到圖像生成,再到音樂生成以及視頻生成,AIGC技術的演進能夠讓全世界創作內容的成本極大降低,從而打破強勢文化利用資源來達到的壟斷地位,讓每個少數族群都能夠創作屬於自己的內容,實現真正的文化平權。

這也是我們作為一家在全球幾十個國家都擁有業務的全球互聯

Share this content: