昆仑万维领跑:跨越多模态大模型之旅与天工3.0的崛起

Featured Image
天工多模態大模型的演進落地

天工多模態大模型在國內的發展愈演愈烈,無論是文生圖、文生音頻、文生視頻,還是AI搜索引擎,都展現出了強大的潛力。

而在這股熱潮中,有這麼一家公司,可以說是站在了“首個”的位置上:

– 發布中國首個開源文本大模型
– 國內首個對標ChatGPT的千億級大模型
– 中國首個AI搜索
– 國內首個提供服務的MoE大模型

這家公司就是昆侖萬維,而最近,他們還推出了“中國首個音樂SOTA模型——天工音樂大模型”。

那麼,昆侖萬維是如何在多模態大模型的道路上不斷演進的呢?他們又是如何如此精準地迈出每一步的呢?

在最近的中國AIGC產業峰會上,昆侖萬維的董事長兼CEO方漢回答了這一切。

為了完整體現方漢的思考,量子位對演講內容進行了編輯整理,希望能給你帶來更多啟發。

天工3.0的發布
———

我今天的演講主題是“天工多模態大模型的演進落地”。

大家都知道,昆侖萬維從2022年12月開始,先是發布了中國首個開源文本大模型,然後在2023年4月17日發布了“天工1.0”,再在2023年8月23日發布了國內首個AI搜索產品——天工AI搜索。

而今天,我們正式發布了“天工3.0”,這是中國首個在音樂AIGC領域達到SOTA的模型。同時,我們還將開源全球最大規模的MOE大模型,並啟動了公測。

首先,目前,“天工3.0”的性能已經全面超越了3140億參數的MOE大模型Grok-1,成為全球第一,而且這兩個大模型目前都是開源的。

我們可以看到,在MMbench和MMbench-CN這兩個測試集中,我們在性能指標上已經全面超越了GPT-4V,綜合排名全球領先。

此外,“天工3.0”在模型技術支持能力上提升了超過20%,在數學、推理、代碼、文創能力上提升了超過30%。

通過專項的Agent訓練,我們的模型可以應付複雜的需求,並在內容創作能力上全面升級,目前在多模態能力上非常全面。

例如,在多輪搜索和研究模式方面,我們的大模型能夠更好地應對用戶的需求。比如,當用戶搜索“成都迪士尼怎麼去”時,我們的模型能夠正確識別出“成都迪士尼”是成都的一個小區,並生成相應的攻略。

再比如,在問天氣的時候,我們的模型能夠以卡片的形式展示上海的天氣,並生成相應的圖片。

我們的模型在多輪搜索和研究模式方面的能力得到了大幅提高,這對用戶來說非常方便。

此外,我們的模型還在智能體方面取得了進展。用戶可以通過非代碼的方式生成智能體,並根據自己的需求生成相應的內容。比如,用戶可以生成一個關於特斯拉和小米SU7車型對比的表格,這在多模態生成方面非常方便。

天工3.0不僅在性能上有了突破,還在多輪搜索、研究模式和智能體方面的能力提升。

首個音樂AIGC的SOTA模型
—————

除了在模型的演進方面取得了重要突破,昆侖萬維還在音樂領域做出了重要貢獻。

我們的天工SkyMusic是目前首個音樂AIGC的SOTA模型。我們的模型在人聲和背景音樂音質、人聲自然度、發音可懂度等方面都有明顯提升。

而且,我們的模型能夠根據示例音源生成音樂,而不是根據標籤生成音樂。這使得許多專業創作者能夠根據自己的想法生成完整的音樂作品。

我們的模型還在人聲合成方面取得了突破,能夠生成更具辨識度的自然人聲。這對於音樂行業來說是一個重要的創新。

通過天工SkyMusic,每個人都可以輕鬆創作自己的歌曲,這降低了音樂創作的門檻,使得音樂創作變得更加平民化。

同時,我們的模型也降低了音樂創作的成本。在過去,製作一首歌曲需要付出昂貴的成本,現在只需要花幾分鐘的時間就可以完成一首可以發布的歌曲。

這對於所有從事創作的人來說都是一個福音。而且,通過AI生成的音樂成本低廉,可以使各行各業都能夠使用音樂,從而實現真正的文化平等。

最後,我們作為一家全球互聯網平台企業,希望看到全世界各個少數民族都能夠創作屬於自己的內容,實現真正的文化平等。

這就是昆侖萬維的使命和目標,我們相信通過不斷的技術演進,一定能夠實現通用人工智能,讓每個人都能夠更好地塑造和表達自我。

_版權所有,未經授權不得轉載,違者必究。_

Share this content: