随着人工智能技术的高速发展,上海人工智能实验室(以下简称上海AI实验室)在多模态AI领域的最新成果引发了广泛关注。近期,该实验室正式向公众开源其新一代通用多模态大模型——书生・万象3.5(InternVL3.5)。这一发布不仅标志着InternVL系列的重大技术突破,也预示着多模态人工智能的又一次飞跃,为全球科研人员和开发者提供了一个强大的技术,开启了开源新纪元。
InternVL3.5在多个关键性能指标上实现了显著提升。相较于前一代版本InternVL3.0,InternVL3.5的推理能力、部署效率与通用性均得到了大幅度改善。此次开源包含来自10亿到2410亿参数的九种不同尺寸的模型,旨在为不同需求的应用场景提供灵活的解决方案。在所有开源模型中,旗舰版本InternVL3.5-241B-A28B在多学科推理基准MMMU测试中获得了77.7分的优异成绩,这一成绩不但使其在开源模型中名列前茅,更是展现了其在多模态通用感知能力方面的领先地位,超越了许多现有的先进模型,包括GPT-5。
InternVL3.5在一系列特色任务上取得了显著优势,特别是在图形用户界面(GUI)智能体、具身空间感知和矢量图像理解与生成等领域的性能得到了质的飞跃。在GUI交互测试中,InternVL3.5在ScreenSpot-v2元素定位任务中的得分高达92.9,远超其他同类模型,并且该模型还支持Windows和Ubuntu系统的自动化操作。这一特性使得它能够在办公自动化场景中广泛应用。
具身智能体的表现同样令人瞩目,InternVL3.5在VSI-Bench测试中的导航路径规划能力超越了Gemini-2.5-Pro,展现出对物理空间关系的深刻理解。这一能力的提升为机器人和自动化系统的开发带来了新的可能性,尤其是在智能制造和仓储物流等领域。
更为突出的是,InternVL3.5在跨操作能力方面的表现。该模型不仅能在Windows、Mac、Ubuntu和Android等多个上操作,还能识别GUI界面元素并自主执行复杂的鼠标和键盘操作。这使得InternVL3.5可以完成如恢复已删除文件、导出PDF文档和邮件附件添加等自动化任务,大大提升了工作效率,拓展了其在实际应用中的广泛性。
InternVL3.5还具备更强的grounding能力,能够在新的复杂小样本具身场景下实现良好的泛化能力。结合先进的抓取算法,该模型支持可泛化的长程物体抓取,进一步提升机器人物品识别、路径规划与物理交互能力。这使得InternVL3.5在智能制造和供应链管理领域展示出了巨大的潜力,为各类自动化系统的开发提供了支持。
自InternVL系列推出以来,其全系列产品的下载量已突破2300万次。这一数字不仅反映了其在全球范围内的广泛应用,更显示出用户对该系列模型的高度认可和需求。通过此次开源InternVL3.5,上海AI实验室期望以更强大的技术实力促进多模态大模型技术的发展,鼓励全球科研人员与开发者之间的合作与创新。
上海AI实验室表示,开源InternVL3.5不仅是一次简单的技术分享,而是希望通过提供这一强大的工具,加速人工智能在各个行业与领域的应用进程,为解决现实世界的复杂问题提供更为广泛和灵活的解决方案。这一举措将为全球人工智能领域的持续发展注入新的活力,也将开启一个崭新的开源时代。
随着多模态技术的不断进步,InternVL3.5将成为未来智能应用的基石,帮助企业和研究人员在人工智能的浪潮中把握住新的机遇。上海AI实验室相信,随着InternVL3.5的开源,更多的创意将不断涌现,技术壁垒也将逐渐被打破,推动全球AI技术迈向新的高度。