中国首创:昆仑万维天工3.0多模态大模型引领AIGC新潮流

Featured Image
天工多模态大模型的演进落地

大家都知道,大模型在多模态的进程中发展越来越迅速。而在国内,昆仑万维这家公司在AIGC大热潮中一直走在最前面。

他们不仅发布了中国首个开源文本大模型,还推出了国内首个对标ChatGPT的双千亿级大模型。他们还发布了中国首个AI搜索,以及国内首个在线提供服务的MoE大模型。

这家公司无疑是个行业的领头羊,他们每一步都稳扎稳打,精准地迈出了每一步。

在中国AIGC产业峰会上,昆仑万维董事长兼CEO方汉回答了大家的疑问,详细介绍了昆仑万维在多模态大模型的道路中是如何演进的。

他首先介绍了最新的成果——天工3.0的发布。这是中国首个在音乐AIGC领域达到SOTA的模型。他们还开源了4000亿参数的全球最大规模的MOE大模型,并且开始进行公测。

方汉表示,天工3.0目前的性能已经全面超越了3140亿参数的MOE大模型Grok-1,这两个大模型都是开源的。在性能指标上,他们已经全面超越了GPT-4V,在综合排名上也是全球领先的。

他还提到,天工3.0在模型技术支持能力上提升了超过20%,在数学、推理、代码、文创能力上提升了超过30%。通过专项的Agent训练,他们可以应对复杂的需求,在内容创作能力上全面升级,实现了能搜能写能读能聊能说能画能听能唱的全面能力。

方汉还介绍了天工3.0在多轮搜索和智能体方面的能力提升。他们的多轮搜索和综合工具的调用能力大幅提高,可以准确识别出一些梗,并生成相应的攻略和图片。在“研究模式”方面,他们可以自动对搜索内容进行总结、自动生成大纲,并生成相应的PPT和脑图。在智能体方面,他们可以通过非代码的形式生成智能体,并生成关于特斯拉和小米SU7车型对比的表格。

除了天工3.0,方汉还介绍了昆仑万维的另一个成果——天工SkyMusic,这是目前首个音乐AIGC的SOTA模型。他们已经在音质、自然度和发音可懂度等方面有了明显的提升。他们的技术模型的架构类似于Sora的DiT架构,数据集已经接近2000万首音乐,这使得他们的模型在音乐指标上超过了SUNO,达到了目前的SOTA。

方汉还介绍了天工SkyMusic的优势,他们可以根据示例音源生成音乐,而不是根据标签生成音乐。这让很多专业创作者能够用自己的一段小旋律生成完整的音乐。他们还在人声合成方面有了突破,可以生成更具辨识度的自然人声。

天工SkyMusic的音乐创作能力极大地降低了音乐创作门槛,让每个人都能够创作出自己的歌曲。通过天工SkyMusic,一个人只需几分钟时间就可以创作出一首可以发布的歌曲,这极大地降低了音乐创作成本。他们的目标是让每个人更好地塑造和表达自我。

方汉最后还分享了昆仑万维的使命与目标,他们的目标是实现通用人工智能,让每个人更好地塑造和表达自我。他们相信通过文本大模型和多模态大模型的不断演进,一定能够实现通用人工智能。他们还希望通过AIGC技术的不断拓展,降低创作成本,让每个人都能够创作属于自己的内容,实现真正的文化平权。

昆仑万维的成就非常值得我们称赞,他们不仅在中国取得了SOTA,也在全球范围内获得了认可。他们的努力为整个行业带来了巨大的推动力,让我们对未来充满了期待。

Share this content: