蚂蚁集团发布万亿参数通用语言模型Ling-1T 创新表现引领行业

来源: 小世评选

2023年10月9日,蚂蚁集团在全球科技界激起了一阵波澜,正式发布了其最新杰作——万亿参数的通用语言模型Ling-1T。这一模型属于蚂蚁百灵系列的Ling 2.0旗舰模型,是该团队迄今为止推出的最大规模和最强能力的模型,充分展示了蚂蚁集团在人工智能领域的前沿技术实力。

Ling-1T的性能在多个复杂推理任务中达到了业界领先的标准(SOTA),特别是在有限输出Token的条件下,其高效思考与精准推理的完美平衡受到了广泛的认可。通过一系列高要求的基准测试,Ling-1T展现了其在代码生成、软件开发、竞赛数学、逻辑推理等领域的卓越能力,这些领域此前对语言模型提出了极为严苛的挑战。

以竞赛数学榜单AIME 25(American Invitation Math Examination 25)为例,Ling-1T以平均4000+ Token的消耗,获得了70.42%的准确率,顯著优于竞争对手Gemini-2.5-Pro(平均5000+ Token,70.10%准确率)。这意味着Ling-1T在推理精度和思考效率间展现了无法比拟的优势,成功拓展了推理准确率和平均推理长度的帕累托前沿。在这个日益竞争激烈的领域,Ling-1T的成绩不仅彰显了技术的进步,也为未来的模型研发指明了方向。

其背后的技术亮点更是不容小觑。Ling-1T基于Ling 2.0架构,利用20T+ tokens的高质量语料进行深度预训练,支持最高128K的上下文窗口,充分挖掘语言表达的复杂性和深度。通过“中训练+后训练”的演进式思维链(Evo-CoT)设计,这个模型在加工信息的效率上达到了前所未有的高度。

在训练过程中,Ling-1T充分利用了FP8混合精度训练的方法,使其成为已知规模最大的采取FP8训练的基座模型。这一创新设计,不仅在显存使用上带来了显著的节省,还是模型在并行处理能力和训练速度上实现了超过15%的加速,为大规模人工智能模型的实现提供了更强的支撑。

在强化学习的阶段,蚂蚁百灵团队通过创新性的LPO方法(Linguistics-Unit Policy Optimization)进一步增强了模型训练的稳定性。这一以“句子”为粒度的策略优化算法提供了重要支持,不仅避免了传统方法中因词元级别训练带来的破碎感问题,同时也克服了序列级别的笼统性,使得奖励信号与模型行为在语义层面保持更高的准确度。

另一项突出成就是蚂蚁百灵团队提出的“语法-功能-美学”的混合奖励机制,这一机制确保了Ling-1T在生成代码和实现功能时,不仅能够保持代码的正确性和功能的完善性,还不断提升其对视觉美学的认知能力。在ArtifactsBench的前端能力基准测试中,Ling-1T得分59.31,仅次于Gemini-2.5-Pro-lowthink的60.28,荣登开源模型的榜首,展现出其在实际应用中的潜力。

除了Ling-1T这一非思考模型,蚂蚁百灵团队还在积极研发万亿参数级的深度思考大模型Ring-1T,并于近日公开了其preview版,这一新模型同样值得行业内外的期待。开发者们可以通过Hugging Face和蚂蚁百宝箱等多种,直接体验Ling-1T模型的强大功能,探索其在实际业务和科研中的广泛应用潜力。

Ling-1T的发布是蚂蚁集团持续深耕人工智能领域的重要成果,代表了行业的新标杆。随着技术的进一步发展,Ling-1T将在更广泛的领域中发挥其不可或缺的作用,为推动高效能的智能工具和应用的开发,助力社会各行业的数字化转型,开辟出一条新的探索之路。

相关阅读
精品推荐