Anthropic发布Claude Sonnet 4.5,宣称获“世界最佳编码模型”称号

来源: 星品数码网

在人工智能领域的快速发展中,Anthropic于2025年9月29日正式发布了Claude Sonnet 4.5,并自信地将其称为“世界上最好的编码模型”。这一新模型的推出,标志着Anthropic在构建复杂AI代理方面取得了重要突破——它能够创建“生产就绪级别”的应用程序,而不仅仅停留在原型开发的阶段。这一进展有效提升了AI在软件开发工作流程中的可靠性,促进了人工智能与开发者之间的协作。

据Anthropic联合创始人兼首席科学官Jared Kaplan透露,Claude Sonnet 4.5在用户互动体验上有显著提升。用户在使用新模型时,能够感受到更强的智能感,并且互动体验仿佛是在与一位富有能力的同事共同解决问题。首席产品官Mike Krieger也表示,虽然Sonnet 4.5的模型规模小于前一代旗舰模型Opus 4.1,但在各项性能指标上均表现优异,能够有效支持实际工作。

在软件工程能力的基准测试SWE-bench Verified中,Claude Sonnet 4.5取得了77.2%的得分,而如果采用并行测试计算方法,该得分甚至可以提升至82%。四个月前推出的Claude Sonnet 4在这一测试中的得分为72.7%,而OpenAI的GPT-5 Codex得分74.5%,Google的Gemini 2.5 Pro得分则为67.2%。从这些数据可以看出,Claude Sonnet 4.5在编码能力方面已显著领先于主要竞争对手。

在另一个名为OSWorld的基准测试中,Sonnet 4.5同样表现优异,得分达到61.4%,相较于Sonnet 4的42.2%实现了显著提升。在评估命令行操作能力的Terminal-Bench测试中,Sonnet 4.5以50%的得分超越了GPT-5的43.8%。这些测试结果都表明,Claude Sonnet 4.5在执行复杂任务时的可靠性和效率得到了显著增强。

Sonnet 4.5最为引人注目的特性之一是其在长时间、多步骤任务中的稳定性。根据Anthropic的内部测试数据,Sonnet 4.5能够连续工作超过30小时,成功完成一个复杂的项目。据透露,早期客户使用Sonnet 4.5时,其成功开发了一款类似Slack或Teams的聊天应用,编写了约11,000行代码,并独立完成了数据库服务搭建、域名购买和安全审计等多个复杂操作。这种执行力和自主性,使得Sonnet 4.5不仅是个编程工具,更是能够主动研发的合作伙伴。

科技博主Simon Willison在试用Sonnet 4.5后,进行了多个测试,结果显示新模型的编码能力已超越了他先前更偏爱的GPT-5-Codex。他的实验中,通过模型克隆代码库、安装依赖、进行测试,甚至增加了新的功能,最终Sonnet 4.5成功通过了所有的测试。Willison认为,Sonnet 4.5具有直接与真实开发工具进行交互的能力,使得它在应用开发中的表现格外出色。

为了使开发者更好地利用Sonnet 4.5的能力,Anthropic同样推出了一系列开发者工具升级,其中最为重要的是Claude Agent SDK的发布。这个软件开发工具包打包了Anthropic内部用于产品开发的框架,旨在解决AI智能体在开发时面临的多种挑战,如长期记忆管理、用户授权与AI自主权限的平衡、以及多个子智能体的协调等。同时,他们也推出了升级版的命令行工具Claude Code 2.0,新增的“检查点”功能允许用户在任务执行过程中随时保存状态,以便在出现错误时便捷地回滚。

尽管Claude Sonnet 4.5在性能上获得了显著提升,Anthropic依然保持对AI安全和对齐问题的关注。他们宣称Sonnet 4.5是其迄今为止“最对齐的前沿模型”,在减少谄媚、欺骗等不良行为方面取得了进展,并增强了抵御提示注入等恶意攻击的能力。在模型发布后不久,知名AI提示工程师Pliny the Liberator就声称他在几分钟内破解了Sonnet 4.5的安全机制,这再一次提醒人们,尽管技术不断进步,但人工智能系统仍然存在被操控的隐患。

从定价策略来看,Sonnet 4.5延续了前一代Sonnet的定价策略,每百万输入Token为3美元,输出Token为15美元。这一价格相较于同类模型而言具备一定的竞争力,虽然高于OpenAI的GPT-5系列,但相比其旗舰模型Claude Opus的定价仍然更为亲民。

Anthropic的Claude Sonnet 4.5凭借其在编码能力上的突破和对开发者友好的工具生态,展现了它在人工智能行业中的潜力。无论是模型的性能提升,还是其构建完整生态系统的战略思维,都显示出Anthropic对于未来人工智能发展的深远布局。随着其他竞争对手的不断跟进,Claude Sonnet 4.5也将面临未来市场的挑战;在现阶段,如何将技术优势转化为稳定、可靠的生产力工具,依然是决定其成败的关键。

相关阅读
精品推荐