昆仑万维AI大模型创新:天工3.0引领多模态技术进程

Featured Image
天工多模态大模型的演进落地

大家都知道,大模型在多模态领域的应用越来越广泛。而在国内,有一家公司在AIGC(人工智能生成内容)的领域中可谓是名声大噪,连续发布了多个中国首个和国内首个的大模型。

这家公司就是昆仑万维,他们发布了中国首个开源文本大模型,国内首个对标ChatGPT的双千亿级大模型,中国首个AI搜索,以及国内首个在线提供服务的MoE大模型。

可以说,昆仑万维在多模态大模型的道路上一步步走得非常精准,每一次都能够准确抓住机会。

最近他们又解锁了“中国首个音乐SOTA模型——天工音乐大模型”。这是一个非常了不起的成就,让我们一起来听听昆仑万维的董事长兼CEO方汉是如何解释他们的成功的。

方汉在中国AIGC产业峰会上的演讲中提到,他们今天发布了天工3.0,这是中国首个在音乐AIGC领域达到SOTA的模型。他们还将开源4000亿参数的全球最大规模的MOE大模型,并开始启动公测。

天工3.0的性能已经全面超越了3140亿参数的MOE大模型Grok-1,成为全球第一。在MMbench和MMbench-CN这两个测试集中,天工3.0在性能指标上已经全面超越了GPT-4V,综合排名全球领先。

天工3.0在模型技术支持能力上提升了超过20%,在数学、推理、代码、文创能力上提升了超过30%。通过专项的Agent训练,可以应付复杂的需求能力,在内容创作能力上全面升级,目前是能搜能写能读能聊能说能画能听能唱,在多模态能力上非常全面。

天工3.0在多轮搜索与综合工具的调用能力上有了大幅提高。例如,搜索“成都迪斯尼怎么去”,天工3.0能够准确识别出来“成都迪斯尼”是成都的一个小区,并生成“成都迪斯尼”的攻略总结。在问天气怎么样的时候,天工3.0会把上海的天气以卡片的形式展现给用户,并生成相应的图片。

此外,天工3.0还在搜索能力上增加了“研究模式”,可以自动对搜索内容进行总结、自动生成大纲、拷贝到PowerPoint,并最后生成脑图。这对研究工作者来说非常有帮助。

在智能体方面,天工3.0可以通过非代码的形式生成智能体,并生成关于特斯拉和小米SU7车型对比的表格,非常方便。

此外,方汉还分享了天工SkyMusic,这是首个音乐AIGC的SOTA模型。天工SkyMusic与SONO V3相比,在人声&BGM音质、人声自然度、发音可懂度等领域都有明显的提升。天工SkyMusic的架构类似于Sora的DiT架构,数据集已经近2000万首音乐,音乐指标达到了SOTA。

天工SkyMusic的独家优势在于根据示例音源生成音乐的能力,而不是根据标签来生成音乐。它还支持多种方言的人声合成,如粤语、四川话、北京话、上海话等。

天工SkyMusic极大地降低了音乐创作门槛,让每个人都可以创作自己的歌曲。通过天工SkyMusic,一个人只需要几分钟的时间就可以创作出一首可以发布的歌曲,大大降低了音乐创作成本。

方汉最后强调了昆仑万维的使命与目标,即实现通用人工智能,让每个人更好地塑造和表达自我。他相信通过文本大模型和多模态大模型的不断演进,一定能够实现通用人工智能。与此同时,通过AIGC技术的不断拓展,每个人都能够更好地塑造和表达自己。

昆仑万维的成就证明了中国研发在垂直领域可以取得全球的SOTA,这是非常有意义的。他们希望通过AIGC技术的发展,打破强势文化的垄断地位,让每个少数族群都能够创作属于自己的内容,实现真正的文化平权。

昆仑万维的努力和成就让人们对中国研发的实力有了更高的期望。他们的使命和目标也将推动整个行业的发展,让每个人都能够更好地参与到人工智能的时代中。

Share this content: