昆仑万维领跑：跨越多模态大模型之旅与天工3.0的崛起

天工多模態大模型的演進落地

天工多模態大模型在國內的發展愈演愈烈，無論是文生圖、文生音頻、文生視頻，還是AI搜索引擎，都展現出了強大的潛力。

而在這股熱潮中，有這麼一家公司，可以說是站在了“首個”的位置上：

– 發布中國首個開源文本大模型
– 國內首個對標ChatGPT的千億級大模型
– 中國首個AI搜索
– 國內首個提供服務的MoE大模型

這家公司就是昆侖萬維，而最近，他們還推出了“中國首個音樂SOTA模型——天工音樂大模型”。

那麼，昆侖萬維是如何在多模態大模型的道路上不斷演進的呢？他們又是如何如此精準地迈出每一步的呢？

在最近的中國AIGC產業峰會上，昆侖萬維的董事長兼CEO方漢回答了這一切。

為了完整體現方漢的思考，量子位對演講內容進行了編輯整理，希望能給你帶來更多啟發。

天工3.0的發布
———

我今天的演講主題是“天工多模態大模型的演進落地”。

大家都知道，昆侖萬維從2022年12月開始，先是發布了中國首個開源文本大模型，然後在2023年4月17日發布了“天工1.0”，再在2023年8月23日發布了國內首個AI搜索產品——天工AI搜索。

而今天，我們正式發布了“天工3.0”，這是中國首個在音樂AIGC領域達到SOTA的模型。同時，我們還將開源全球最大規模的MOE大模型，並啟動了公測。

首先，目前，“天工3.0”的性能已經全面超越了3140億參數的MOE大模型Grok-1，成為全球第一，而且這兩個大模型目前都是開源的。

我們可以看到，在MMbench和MMbench-CN這兩個測試集中，我們在性能指標上已經全面超越了GPT-4V，綜合排名全球領先。

此外，“天工3.0”在模型技術支持能力上提升了超過20%，在數學、推理、代碼、文創能力上提升了超過30%。

通過專項的Agent訓練，我們的模型可以應付複雜的需求，並在內容創作能力上全面升級，目前在多模態能力上非常全面。

例如，在多輪搜索和研究模式方面，我們的大模型能夠更好地應對用戶的需求。比如，當用戶搜索“成都迪士尼怎麼去”時，我們的模型能夠正確識別出“成都迪士尼”是成都的一個小區，並生成相應的攻略。

再比如，在問天氣的時候，我們的模型能夠以卡片的形式展示上海的天氣，並生成相應的圖片。

我們的模型在多輪搜索和研究模式方面的能力得到了大幅提高，這對用戶來說非常方便。

此外，我們的模型還在智能體方面取得了進展。用戶可以通過非代碼的方式生成智能體，並根據自己的需求生成相應的內容。比如，用戶可以生成一個關於特斯拉和小米SU7車型對比的表格，這在多模態生成方面非常方便。

天工3.0不僅在性能上有了突破，還在多輪搜索、研究模式和智能體方面的能力提升。

首個音樂AIGC的SOTA模型
—————

除了在模型的演進方面取得了重要突破，昆侖萬維還在音樂領域做出了重要貢獻。

我們的天工SkyMusic是目前首個音樂AIGC的SOTA模型。我們的模型在人聲和背景音樂音質、人聲自然度、發音可懂度等方面都有明顯提升。

而且，我們的模型能夠根據示例音源生成音樂，而不是根據標籤生成音樂。這使得許多專業創作者能夠根據自己的想法生成完整的音樂作品。

我們的模型還在人聲合成方面取得了突破，能夠生成更具辨識度的自然人聲。這對於音樂行業來說是一個重要的創新。

通過天工SkyMusic，每個人都可以輕鬆創作自己的歌曲，這降低了音樂創作的門檻，使得音樂創作變得更加平民化。

同時，我們的模型也降低了音樂創作的成本。在過去，製作一首歌曲需要付出昂貴的成本，現在只需要花幾分鐘的時間就可以完成一首可以發布的歌曲。

這對於所有從事創作的人來說都是一個福音。而且，通過AI生成的音樂成本低廉，可以使各行各業都能夠使用音樂，從而實現真正的文化平等。

最後，我們作為一家全球互聯網平台企業，希望看到全世界各個少數民族都能夠創作屬於自己的內容，實現真正的文化平等。

這就是昆侖萬維的使命和目標，我們相信通過不斷的技術演進，一定能夠實現通用人工智能，讓每個人都能夠更好地塑造和表達自我。

Share this content: