天工多模態大模型的演進落地
天工多模態大模型在國內的發展愈演愈烈,無論是文生圖、文生音頻、文生視頻,還是AI搜索引擎,都展現出了強大的潛力。
而在這股熱潮中,有這麼一家公司,可以說是站在了“首個”的位置上:
– 發布中國首個開源文本大模型
– 國內首個對標ChatGPT的千億級大模型
– 中國首個AI搜索
– 國內首個提供服務的MoE大模型
這家公司就是昆侖萬維,而最近,他們還推出了“中國首個音樂SOTA模型——天工音樂大模型”。
那麼,昆侖萬維是如何在多模態大模型的道路上不斷演進的呢?他們又是如何如此精準地迈出每一步的呢?
在最近的中國AIGC產業峰會上,昆侖萬維的董事長兼CEO方漢回答了這一切。
為了完整體現方漢的思考,量子位對演講內容進行了編輯整理,希望能給你帶來更多啟發。
天工3.0的發布
———
我今天的演講主題是“天工多模態大模型的演進落地”。
大家都知道,昆侖萬維從2022年12月開始,先是發布了中國首個開源文本大模型,然後在2023年4月17日發布了“天工1.0”,再在2023年8月23日發布了國內首個AI搜索產品——天工AI搜索。
而今天,我們正式發布了“天工3.0”,這是中國首個在音樂AIGC領域達到SOTA的模型。同時,我們還將開源全球最大規模的MOE大模型,並啟動了公測。
首先,目前,“天工3.0”的性能已經全面超越了3140億參數的MOE大模型Grok-1,成為全球第一,而且這兩個大模型目前都是開源的。
我們可以看到,在MMbench和MMbench-CN這兩個測試集中,我們在性能指標上已經全面超越了GPT-4V,綜合排名全球領先。
此外,“天工3.0”在模型技術支持能力上提升了超過20%,在數學、推理、代碼、文創能力上提升了超過30%。
通過專項的Agent訓練,我們的模型可以應付複雜的需求,並在內容創作能力上全面升級,目前在多模態能力上非常全面。
例如,在多輪搜索和研究模式方面,我們的大模型能夠更好地應對用戶的需求。比如,當用戶搜索“成都迪士尼怎麼去”時,我們的模型能夠正確識別出“成都迪士尼”是成都的一個小區,並生成相應的攻略。
再比如,在問天氣的時候,我們的模型能夠以卡片的形式展示上海的天氣,並生成相應的圖片。
我們的模型在多輪搜索和研究模式方面的能力得到了大幅提高,這對用戶來說非常方便。
此外,我們的模型還在智能體方面取得了進展。用戶可以通過非代碼的方式生成智能體,並根據自己的需求生成相應的內容。比如,用戶可以生成一個關於特斯拉和小米SU7車型對比的表格,這在多模態生成方面非常方便。
天工3.0不僅在性能上有了突破,還在多輪搜索、研究模式和智能體方面的能力提升。
首個音樂AIGC的SOTA模型
—————
除了在模型的演進方面取得了重要突破,昆侖萬維還在音樂領域做出了重要貢獻。
我們的天工SkyMusic是目前首個音樂AIGC的SOTA模型。我們的模型在人聲和背景音樂音質、人聲自然度、發音可懂度等方面都有明顯提升。
而且,我們的模型能夠根據示例音源生成音樂,而不是根據標籤生成音樂。這使得許多專業創作者能夠根據自己的想法生成完整的音樂作品。
我們的模型還在人聲合成方面取得了突破,能夠生成更具辨識度的自然人聲。這對於音樂行業來說是一個重要的創新。
通過天工SkyMusic,每個人都可以輕鬆創作自己的歌曲,這降低了音樂創作的門檻,使得音樂創作變得更加平民化。
同時,我們的模型也降低了音樂創作的成本。在過去,製作一首歌曲需要付出昂貴的成本,現在只需要花幾分鐘的時間就可以完成一首可以發布的歌曲。
這對於所有從事創作的人來說都是一個福音。而且,通過AI生成的音樂成本低廉,可以使各行各業都能夠使用音樂,從而實現真正的文化平等。
最後,我們作為一家全球互聯網平台企業,希望看到全世界各個少數民族都能夠創作屬於自己的內容,實現真正的文化平等。
這就是昆侖萬維的使命和目標,我們相信通過不斷的技術演進,一定能夠實現通用人工智能,讓每個人都能夠更好地塑造和表達自我。
_版權所有,未經授權不得轉載,違者必究。_
Share this content: