上海AI实验室发布通用多模态大模型InternVL3.5 开源新纪元蓄势待发_硬件资讯

随着人工智能技术的高速发展，上海人工智能实验室（以下简称上海AI实验室）在多模态AI领域的最新成果引发了广泛关注。近期，该实验室正式向公众开源其新一代通用多模态大模型——书生・万象3.5（InternVL3.5）。这一发布不仅标志着InternVL系列的重大技术突破，也预示着多模态人工智能的又一次飞跃，为全球科研人员和开发者提供了一个强大的技术，开启了开源新纪元。

InternVL3.5在多个关键性能指标上实现了显著提升。相较于前一代版本InternVL3.0，InternVL3.5的推理能力、部署效率与通用性均得到了大幅度改善。此次开源包含来自10亿到2410亿参数的九种不同尺寸的模型，旨在为不同需求的应用场景提供灵活的解决方案。在所有开源模型中，旗舰版本InternVL3.5-241B-A28B在多学科推理基准MMMU测试中获得了77.7分的优异成绩，这一成绩不但使其在开源模型中名列前茅，更是展现了其在多模态通用感知能力方面的领先地位，超越了许多现有的先进模型，包括GPT-5。

InternVL3.5在一系列特色任务上取得了显著优势，特别是在图形用户界面（GUI）智能体、具身空间感知和矢量图像理解与生成等领域的性能得到了质的飞跃。在GUI交互测试中，InternVL3.5在ScreenSpot-v2元素定位任务中的得分高达92.9，远超其他同类模型，并且该模型还支持Windows和Ubuntu系统的自动化操作。这一特性使得它能够在办公自动化场景中广泛应用。

具身智能体的表现同样令人瞩目，InternVL3.5在VSI-Bench测试中的导航路径规划能力超越了Gemini-2.5-Pro，展现出对物理空间关系的深刻理解。这一能力的提升为机器人和自动化系统的开发带来了新的可能性，尤其是在智能制造和仓储物流等领域。

更为突出的是，InternVL3.5在跨操作能力方面的表现。该模型不仅能在Windows、Mac、Ubuntu和Android等多个上操作，还能识别GUI界面元素并自主执行复杂的鼠标和键盘操作。这使得InternVL3.5可以完成如恢复已删除文件、导出PDF文档和邮件附件添加等自动化任务，大大提升了工作效率，拓展了其在实际应用中的广泛性。

InternVL3.5还具备更强的grounding能力，能够在新的复杂小样本具身场景下实现良好的泛化能力。结合先进的抓取算法，该模型支持可泛化的长程物体抓取，进一步提升机器人物品识别、路径规划与物理交互能力。这使得InternVL3.5在智能制造和供应链管理领域展示出了巨大的潜力，为各类自动化系统的开发提供了支持。

自InternVL系列推出以来，其全系列产品的下载量已突破2300万次。这一数字不仅反映了其在全球范围内的广泛应用，更显示出用户对该系列模型的高度认可和需求。通过此次开源InternVL3.5，上海AI实验室期望以更强大的技术实力促进多模态大模型技术的发展，鼓励全球科研人员与开发者之间的合作与创新。

上海AI实验室表示，开源InternVL3.5不仅是一次简单的技术分享，而是希望通过提供这一强大的工具，加速人工智能在各个行业与领域的应用进程，为解决现实世界的复杂问题提供更为广泛和灵活的解决方案。这一举措将为全球人工智能领域的持续发展注入新的活力，也将开启一个崭新的开源时代。

随着多模态技术的不断进步，InternVL3.5将成为未来智能应用的基石，帮助企业和研究人员在人工智能的浪潮中把握住新的机遇。上海AI实验室相信，随着InternVL3.5的开源，更多的创意将不断涌现，技术壁垒也将逐渐被打破，推动全球AI技术迈向新的高度。