昆仑万维AI大模型创新：天工3.0引领多模态技术进程

天工多模态大模型的演进落地

大家都知道，大模型在多模态领域的应用越来越广泛。而在国内，有一家公司在AIGC（人工智能生成内容）的领域中可谓是名声大噪，连续发布了多个中国首个和国内首个的大模型。

这家公司就是昆仑万维，他们发布了中国首个开源文本大模型，国内首个对标ChatGPT的双千亿级大模型，中国首个AI搜索，以及国内首个在线提供服务的MoE大模型。

可以说，昆仑万维在多模态大模型的道路上一步步走得非常精准，每一次都能够准确抓住机会。

最近他们又解锁了“中国首个音乐SOTA模型——天工音乐大模型”。这是一个非常了不起的成就，让我们一起来听听昆仑万维的董事长兼CEO方汉是如何解释他们的成功的。

方汉在中国AIGC产业峰会上的演讲中提到，他们今天发布了天工3.0，这是中国首个在音乐AIGC领域达到SOTA的模型。他们还将开源4000亿参数的全球最大规模的MOE大模型，并开始启动公测。

天工3.0的性能已经全面超越了3140亿参数的MOE大模型Grok-1，成为全球第一。在MMbench和MMbench-CN这两个测试集中，天工3.0在性能指标上已经全面超越了GPT-4V，综合排名全球领先。

天工3.0在模型技术支持能力上提升了超过20%，在数学、推理、代码、文创能力上提升了超过30%。通过专项的Agent训练，可以应付复杂的需求能力，在内容创作能力上全面升级，目前是能搜能写能读能聊能说能画能听能唱，在多模态能力上非常全面。

天工3.0在多轮搜索与综合工具的调用能力上有了大幅提高。例如，搜索“成都迪斯尼怎么去”，天工3.0能够准确识别出来“成都迪斯尼”是成都的一个小区，并生成“成都迪斯尼”的攻略总结。在问天气怎么样的时候，天工3.0会把上海的天气以卡片的形式展现给用户，并生成相应的图片。

此外，天工3.0还在搜索能力上增加了“研究模式”，可以自动对搜索内容进行总结、自动生成大纲、拷贝到PowerPoint，并最后生成脑图。这对研究工作者来说非常有帮助。

在智能体方面，天工3.0可以通过非代码的形式生成智能体，并生成关于特斯拉和小米SU7车型对比的表格，非常方便。

此外，方汉还分享了天工SkyMusic，这是首个音乐AIGC的SOTA模型。天工SkyMusic与SONO V3相比，在人声&BGM音质、人声自然度、发音可懂度等领域都有明显的提升。天工SkyMusic的架构类似于Sora的DiT架构，数据集已经近2000万首音乐，音乐指标达到了SOTA。

天工SkyMusic的独家优势在于根据示例音源生成音乐的能力，而不是根据标签来生成音乐。它还支持多种方言的人声合成，如粤语、四川话、北京话、上海话等。

天工SkyMusic极大地降低了音乐创作门槛，让每个人都可以创作自己的歌曲。通过天工SkyMusic，一个人只需要几分钟的时间就可以创作出一首可以发布的歌曲，大大降低了音乐创作成本。

方汉最后强调了昆仑万维的使命与目标，即实现通用人工智能，让每个人更好地塑造和表达自我。他相信通过文本大模型和多模态大模型的不断演进，一定能够实现通用人工智能。与此同时，通过AIGC技术的不断拓展，每个人都能够更好地塑造和表达自己。

昆仑万维的成就证明了中国研发在垂直领域可以取得全球的SOTA，这是非常有意义的。他们希望通过AIGC技术的发展，打破强势文化的垄断地位，让每个少数族群都能够创作属于自己的内容，实现真正的文化平权。

昆仑万维的努力和成就让人们对中国研发的实力有了更高的期望。他们的使命和目标也将推动整个行业的发展，让每个人都能够更好地参与到人工智能的时代中。

Share this content: