AI模型在新基准测试中遭遇滑铁卢,博士级推理仍显不足

来源: 小世评选

近年来,人工智能(AI)的发展步伐迅猛,尤其是在处理复杂数学问题和逻辑推理方面,顶尖AI模型似乎已经达到了前所未有的高度。近期,谷歌和OpenAI的一些模型在国际数学奥林匹克(IMO)水平测试中表现出色,达到了金牌的水准,这让外界对AI是否具备解决博士级创新科学难题的推理能力产生了强烈的期待。

现实却给了我们一记重击。新近发布的基准测试FormulaOne反映了当前AI模型在更高深度、更多元化的推理能力上的不足。据报道,多个前沿AI模型,包括GPT-5、o3 Pro、Gemini 2.5 Pro和Grok 4在FormulaOne测试中接连遭遇“滑铁卢”,共计取得零分的惨淡成绩。

FormulaOne基准测试的背景

FormulaOne测试由致力于超智能与高级AI系统研究的机构AA-I Technologies提出,旨在评估当前AI模型在处理复杂图结构动态规划问题上的能力。该测试包含了220个新颖的问题,按难度分为三个等级,从中等到科研级别。其中,最高等级的难题涉及拓扑、几何和组合问题的分析。尽管这些问题的表述似乎简单自然,但实际上其解答背后的推理过程复杂且极具挑战性。

这一测试的设计灵感来源于Courcelle定理,表明“对于每个足够接近树的图,任何可以用一种富有表现力的逻辑(比如一元二阶逻辑)定义的问题,都可以通过动态规划算法以线性时间解出。”这一理论的成功依赖于特定的图结构组织,使得算法可以逐步解决每一个“袋”内的问题,从而最终得出解答。

AI模型的表现分析

在针对浅层难度问题的测试中,顶尖AI模型的表现介于50%-70%之间,显示出它们在这类问题上的一定熟悉度。这意味着这些问题仍然处在模型的训练分布范围内。当难度加大到深层次问题时,各大模型的表现大幅下降。Grok 4、Gemini-Pro、o3-Pro、Opus-4等模型在对应难度的100道题目中,最多解出了1道,而GPT-5 Pro的表现稍好,解出4道。而在最深层难度的题目测试中,所有参与测试的模型均以0的成功率黯然退场。

社会反响与未来展望

FormulaOne测试的结果引起了广泛的关注,不少研究者和科技爱好者都在社交媒体上讨论,甚至有人建议让人类博士生参与这种复杂问题的评估。这样的提议不仅凸显了科技界对于AI能力的高期待,也反映出对人类推理能力独特优势的重新认识。

AA-I Technologies作为一家具备前瞻性的AI初创公司,旨在推动一种新形式的“人工专家智能”(Artificial Expert Intelligence,AEI)。与传统窄域AI或人工一般智能(AGI)相比,这种AEI强调将领域知识与严谨的科学推理能力结合,以期突破目前AI所面临的“特定任务专精”和“泛化能力不足”的瓶颈。

通过FormulaOne基准测试,我们不难发现当前AI模型在处理复杂科学问题上的能力仍处于初级阶段。尽管在一些领域,它们的表现较为优异,但在需要深入推理和复杂逻辑组合的科学问题上,其能力明显不足。因此,未来的AI研究需要更为关注如何将科学推理与领域知识整合,以促进AI的发展,使其能够像顶尖人类专家一样,解决复杂科学和工程难题。

在技术快速发展的今天,AI的进步前景令人期待,但目前的挑战也为实现这一目标敲响了警钟。只有不断探索与创新,才能推动人工智能在处理更复杂任务方面的可能性,真正实现以AI为助力的科研突破。随着对AI模型能力深入了解的加深,相信未来的AI研究者们会继续努力,向更高层次的智慧迈进。

相关阅读
精品推荐