新研究:On-Policy Distillation助力AI模型高效学习与终身能力恢复

来源: 星品数码网

随着人工智能(AI)领域的不断进步,新的学习方法和技术不断涌现。最近,Thinking Machine的最新研究产生了广泛的讨论,其创新的On-Policy Distillation方法显著提升了AI模型的学习效率和能力恢复。该研究由前OpenAI首席技术官Mira Murati亲自转发,引起了业界专家的高度关注。研究表明,这种方法不仅能让小型模型更深入地理解专业领域知识,还为其终身学习能力的提升提供了新的解决方案。

在探索AI模型的训练方法时,传统上主要有两种方式:一种是在线策略方法,如强化学习,让模型自主摸索,从错误中学习;另一种是离线策略方法,如监督微调,通过直接提供正确答案来提高效率。虽然前者灵活但耗时,后者快速但容易导致模型的僵化。On-Policy Distillation巧妙地将这两者结合起来,相当于给AI模型配备了一位优秀的教练:在动手实践的同时,随时给予指导和建议。

这种方法的关键在于其高性价比实践。研究发现,应用On-Policy Distillation进行数学训练时,相较于传统方法,所需的训练步骤减少了7至10倍,整体学习效率提升了50%到100%。这意味着,资源有限的个人或小型公司也能够训练出在特定领域表现出色的模型,大大降低了AI技术的应用门槛。

On-Policy Distillation的实施分为三个阶段:预训练、中训练和后训练。预训练主要是让模型学习通用的语言能力和逻辑推理,中训练则是传授专业知识,而后训练则是对模型行为的引导和修正。该研究特别关注后训练阶段,创建了一种结合两种训练策略的高效框架。在这个框架中,教师模型对学生模型的每一步生成进行严格评估,并通过计算他们之间的KL散度来评判两者的表现差异。由此产生的奖励信号用于引导学生模型进行改进,确保其在学习过程中不断接近目标表现。

为验证On-Policy Distillation的有效性,研究人员进行了一系列实验。以Qwen3-32B作为教师模型,Qwen3-8B-Base作为学生模型,实验结果表明,通过该方法,学生模型在数学基准测试中的得分从60分提升至70分,仅需约150个训练步骤,相较于传统方法大幅降低了计算成本,达到了9至30倍的节省。

模型在学习新知识时,往往会出现“灾难性遗忘”的问题——即在掌握新内容的同时,先前的能力明显下降。对此,研究者提出了利用On-Policy Distillation来恢复模型的原有能力。他们发现,当使用这种方法时,模型在重新学习的过程中不仅能有效恢复通用能力,其新知识的表现也有所提升。具体而言,在相关测试中,模型的通用能力从79%回升至83%,新知识得分则从36%提升至41%。这一发现证明了On-Policy Distillation在解决AI知识遗忘问题上的有效性,展现了实现AI“终身学习”的潜在可能。

在这个研究中,核心贡献者是一位今年8月从OpenAI转投Thinking Machine的研究人员。在OpenAI的工作经历使得他在强化学习和小模型研究领域积累了丰富的经验,而这次的研究成果进一步巩固了他在AI学习方法创新上的位置。通过引入On-Policy Distillation,这位研究者不仅推动了AI模型的高效训练方法,还为该领域未来的发展提供了新的思路。

Thinking Machine的On-Policy Distillation研究为AI模型的训练和能力恢复开辟了新的方向。通过有效的学习机制,该技术不仅能提高模型在特定领域的表现,同时也为解决AI发展中的一系列问题提供了实质性的解决方案,如灾难性遗忘和资源效率等。可以预见,随着这一方法的推广与应用,未来将有更多具有学习能力的智能系统涌现,为各行业的发展带来 transformation 和创新。

如欲深入了解本研究的详细内容,可访问相关论文链接:[On-Policy Distillation研究](https://thinkingmachines.ai/blog/on-policy-distillation/)。

相关阅读
精品推荐