谷歌Gemini 2.5 Pro逆转局势:深度解析大模型训练与推理优化新策略

来源: 小世评选

编辑:英智

在当前竞争激烈的人工智能领域,谷歌凭借最新推出的Gemini 2.5 Pro实现了战略性逆转。这一突破源于其在大模型训练及推理优化方面的新策略,这让谷歌再次走到了行业前沿。

近日,Gemini Flash预训练负责人Vlad Feinberg在普林斯顿大学的演讲中深入探讨了Gemini 2.5 Pro的训练方法、所面临的挑战以及未来的发展方向。他强调,在模型大小、计算能力、数据和推理成本之间寻求最优平衡的重要性。本次演讲的PPT可以通过以下链接获取:https://vladfeinberg/assets/2025-04-24-princeton-talk.pdf。

在模型训练过程中,合理利用计算资源是至关重要的。以拥有1000块H100芯片、持续30天的计算资源为例,我们如何才能训练出最佳的大语言模型(LLM)呢?这涉及到模型参数数量(N)与训练token的数量(D)。对于基于Transformer的模型,计算量(C)与参数量和token数量之间呈现出近似关系:C≈6×N×D。这表明,计算资源的分配与模型的复杂性密切相关。

理解模型的各个组成部分及其计算量至关重要。例如,多层感知器(MLP)在训练过程中会产生浮点运算量和参数量的差异。在具体操作中,多个操作累积的训练浮点运算量达到约18BTDF,参数数量为3DF。而注意力机制的计算则更为复杂,累积出的浮点运算量约为12BTSNH,参数量为4DNH。通过将MLP和注意力机制的计算量进行整合,我们能够掌握整个模型训练过程中的计算负载。

2019年,Kaplan等人的研究引发了对模型性能与数据、模型规模、计算量之间关系的广泛关注。他们发现,在自回归Transformer模型中,小模型可用来预测大模型的性能,并揭示了算力、参数量和数据量之间的幂律关系。2022年DeepMind团队对Kaplan的观点提出了质疑,认为仅依赖于单次训练的中间损失进行模型性能推断存在缺陷。他们的研究表明,基于适当的学习率衰减,最终的损失值才是真正的性能衡量标准。

DeepMind团队的Chinchilla论文采用了一种新的方法来优化模型的训练效率,特别是围绕固定浮点运算预算进行多模型参数和数据量的探索。在研究中,发现模型参数N与数据量D的增长速度应大致保持一致(幂律指数约为0.5),这一发现与Kaplan的研究形成鲜明对比。

进一步的研究显示,混合专家(MoE)模型在性能上展现出独特的优势,尤其是在活跃参数数量相同且使用固定100B token的情况下。MoE模型对数据的需求相对较高,随着互联网可用数据的增长缓慢,这成为了其发展中的一大瓶颈。因此,研究者们正在积极寻求解决数据不足的方案,通过引入多模态数据(如音频、视频、3D模型等)来丰富模型训练的信息来源。合成数据的运用也被关注,以寻求生成质量与筛选成本的平衡。

在众多实际应用中,如Gemini聊天机器人、AIO、AIM、Vertex AI等,推理效率显得尤为重要。这些应用需要迅速准确地响应用户请求,因此推理速度和效率直接影响应用的用户体验。例如,在实时应用中,如Astra和Mariner,模型的响应时间不能超过1秒,而额外的框架搭建和负载均衡等操作又需要250毫秒的时间。因此,如何优化推理过程成为亟待解决的问题。

有研究指出,传统的大模型在推理场景下可能面临更大的延迟。以Llama3-70B模型为例,其在处理8k token时需要5.7秒才能完成,仅仅为了满足0.5秒的响应时间限制,就需要配置4层的并行运算。这使得小模型的方案(如Gemini Flash/Flash-lite)在实时应用中获得更多关注。

针对这一挑战,《超越Chinchilla最优:在语言模型扩展定律中考虑推理因素》的论文提出了新的推理优化策略。研究强调,在优化模型时不仅要关注训练loss的最小化,还需综合考虑训练和推理的总计算量。这种方法建议在固定计算量下,训练更小的模型并使用更多数据,从而实现推理时计算负担的减轻。

这种方法在实际应用中面临一些挑战,包括不同计算资源的差异、效率提升引起的需求增加(即杰文斯悖论)以及针对不同数据集时参数拟合效果的差异。研究者们引入了新的维度,通过区分不同数据,对损失函数和数据规模公式进行调整,使得训练得到的模型能力更强,对数据的适应性更强。

知识蒸馏也是一种提升推理效率的重要思路。通过调整模型参数,知识蒸馏能够显著减少模型的复杂性,提高推理效率。尽管在实际应用中存在一定的问题,例如对趋势的敏感性不足,但通过权重的调整等方法,知识蒸馏为模型优化建议了新的途径。

谷歌的Gemini预训练技术通过对模型规模、数据量和计算量关系的深入研究,不断优化模型训练配置,并针对推理效率的提升提出了新的方法。这一系列的努力使得Gemini 2.5 Pro在人工智能的发展历程中脱颖而出,成为未来各类AI应用的重要基础。

相关阅读
精品推荐