DeepSeek新模型强势登顶,代码能力将与OpenAI o1相媲美,开源在即

来源: 小世评选

最近,一则关于DeepSeek的消息引起了广泛关注。尽管新模型尚未正式发布,但它已经在权威代码基准测试LiveCodeBench中取得了令人瞩目的成绩,稳居前列。这一次的发布并非是DeepSeek已经可以在官方应用试玩的轻量预览版DeepSeek-R1-Lite,而是揭开了全新面貌——DeepSeek-R1 Preview,这意味着该模型采用了更大规模的基础模型,功能和性能均有了显著提升。

根据LiveCodeBench团队的反馈,他们正在与DeepSeek紧密合作,评估这一新模型的能力,并在这一过程中,DeepSeek团队帮助该评估团队发现和修复了一些评分系统中的bug。同时,团队还公开了一张新模型的思考过程图,这一切无不显示出DeepSeek在代码编程领域的不断深入和谢绝妥协的决心。

值得注意的是,DeepSeek此前已宣布R1模型将会开源,这引发了网友们的热烈讨论。许多人期待着这个即将到来的开源模型能够在编程领域中达到与OpenAI o1相当的成就,甚至有网友感慨:“2025年的编程将变得极其简单,只需轻按Tab键!”

DeepSeek的全新推理大模型推出不久前,DeepSeek在官网上线的DeepSeek-R1-Lite-Preview版本就已经显示出其卓越的能力。该轻量版在使用强化学习进行训练时,其推理过程中包含了大量反思和验证,遵循了最新的模型扩展法律(Scaling Laws)。在AIME测试基准中,随着推理长度的增加,DeepSeek-R1-Lite-Preview的表现也表现出稳定的得分提升,显示出该模型在复杂问题上的处理能力。

科学家和开发者们在对DeepSeek-R1-Lite的测试中发现,该模型生成推理步骤时似乎展现了自我纠正的能力,类似于“自我反思”。这种能力的表现让人惊喜,但由于缺乏足够的训练数据和详细的模型架构以及技术报告,具体的确认仍需未来的深入研究。

DeepSeek-R1 Preview的推出,意味着去掉了轻量版的标签,采用了更为强大的基础模型。值得一提的是,之前的Lite版在处理高难度的数学和代码任务时,就已经超越了OpenAI的o1-preview,远远领先于GPT-4o。而此次在LiveCodeBench上的唇枪舌剑中,该模型的表现与OpenAI的o1-Medium相当,使得众多开发者对于即将发布的开源模型和API充满期待。

LiveCodeBench由加州大学伯克利分校、麻省理工学院及康奈尔大学等学术团队共同推出,意在对大型模型在编程能力上的表现进行全面、客观的评估。为避免测试数据泄露,LiveCodeBench采取了动态更新的策略,定期从人类编程竞赛收集最新的编程题目。这种实时更新的方法确保了测试的公正性和可靠性,受到了开发者社群的广泛认可。

程序开发者们也不断向技术团队提出建议,一些开发者期待DeepSeek的R1-Preview模型能够直接集成到Agent模式中,以便更好地服务于他们的开发工作。

在临近春节之际,诸多国内大型模型团队纷纷更新了自家的模型。OpenAI似乎也计划借此机会推出一些新作。OpenAI的首席执行官阿尔特曼在社交媒体上透露,o3-mini已经完成外部合作测试,并确认最终版将在几周内推出,同时会上线API和ChatGPT。阿尔特曼还表示,o3-mini的运行速度很快,但在多数情况下的表现不会超越o1-pro,并且o3 pro的费用将会从每月200美元起步。

未来,OpenAI正在关注的一个重要方向是提升人工智能在单次任务中输出更多内容的能力,并计划在2025年将GPT系列和o系列模型整合。这一政策动向让行业内人士对未来AI模型的表现充满了期待。

DeepSeek的创新举措为开发者们提供了更多元化的选择和可能性,而即将到来的开源版本以及性能卓越的新模型,预示着编程界的竞争与合作将会更加激烈。我们期待新技术的落地会如何影响未来的编程工作,激发更多的创造与可能。

相关阅读
精品推荐