近期的一项研究由奥地利复杂科学研究所(CSH)主导,评估了当前三大顶尖大型语言模型(LLMs)在处理高级历史考试问题上的表现。这些模型包括OpenAI的GPT-4、Meta的Llama以及谷歌的Gemini。尽管人工智能在诸如编程等领域展现了强大的能力,但研究表明,AI在面对复杂的历史问题时却显得力不从心。这一发现引发了对AI在学术领域应用的广泛讨论。
研究团队设计了一个名为“Hist-LLM”的基准测试工具,旨在通过Seshat全球历史数据库来测试这些模型的答题能力。Seshat数据库是一个庞大的历史知识库,其信息覆盖了多个历史时期和文明,具有较高的学术价值和实用性。研究结果于上月在知名的AI会议NeurIPS上发布,显示出这些大型语言模型在处理高级历史问题时的真实能力。
该研究的合著者之一、伦敦大学学院计算机科学副教授Maria del Rio-Chanona指出:“我们的研究结果表明,尽管大型语言模型的表现令人惊叹,然而它们在高级历史知识的理解上仍显不足。虽然它们能够掌握一些基本的历史事实,但在复杂的博士级别历史研究中,却无法提供准确的回答。”
在实验中,研究人员提供了一些模型答错的历史问题实例,说明了其局限性。例如,当询问古埃及某一特定时期是否存在鳞甲时,GPT-4 Turbo给出了肯定的答案,但实际上,这种技术直到1500年后才在埃及出现。同样,当问及古埃及是否拥有职业常备军时,模型也给出了错误的肯定回答,尽管正确答案是古埃及并没有职业常备军。研究者认为,这可能是因为有关古埃及的信息不如其他历史时期的信息丰富,导致模型记忆偏差。
研究还指出,OpenAI和Llama模型在撒哈拉以南非洲等地区的表现较差,表明其训练数据可能存在地域偏见。Peter Turchin,研究的负责人,强调说这些结果表明,尽管LLMs在某些领域具有潜力,但其仍无法替代人类的深度理解与分析。
尽管面临挑战,研究团队对LLMs在未来历史研究中的应用依然持乐观态度。他们正在努力改善基准测试工具,通过整合更多来自代表性不足地区的数据以及提出更复杂的问题来提高测试的全面性与准确性。研究论文中道:“尽管我们的结果强调了LLMs需要改进的领域,但同样显示了这些模型在历史研究中的巨大潜力。”
当前,社会各界对AI技术的探索与应用正在不断深入,越发呈现出其在各个领域中可能带来的创新与变革。这一研究提醒我们,在涉及复杂知识和学术分析时,AI仍处于发展阶段,需要更多针对性的改进与精细化训练。
同时,这项研究对历史教育的影响也不容忽视。教育工作者应重新评估在课堂上使用AI工具的策略,尤其是在教授诸如历史等需要高层次理解的学科时。AI的出现不能取代人类的思考与分析能力,也是对教育者的一次考验,提醒他们在教育过程中始终保持对内容的深度理解。
尽管大型语言模型在一些基础任务上表现优异,但在高级历史研究方面的表现却不尽如人意。这提示我们应理性看待AI的能力,且未来的开发与应用还需注重数据的质量与多样性,以提升其在更复杂知识领域的实用性。随着研究的不断深入,AI将在历史研究等领域中找到更为合适的发展路径,为人类提供有力的辅助与支持。