在人工智能领域,大模型推理一直面临着长链条深度思考与低时延反馈的矛盾。华为盘古团队针对这一问题,推出了盘古 Embedded 模型,通过创新的双系统认知架构实现快慢思考的融合,为大模型推理带来了一场“左右脑”革命。
华为盘古 Embedded 模型的创新
盘古 Embedded 是基于昇腾 NPU 开发的高效语言模型,其核心创新在于两阶段训练框架,能够兼顾推理效率与精度。在第一阶段,通过迭代式蒸馏和多源动态奖励系统(MARS),高效聚合互补知识。第二阶段,通过双系统框架赋予模型快慢思考能力,支持手动和自动切换,动态平衡推理深度与计算效率。
快慢思考双系统架构
受认知心理学中双过程理论的启发,盘古 Embedded 提出双系统认知架构,使模型具备快思考(System 1)和慢思考(System 2)两种思维能力。快思考模式擅长快速输出答案,适合简单任务;慢思考模式则用于复杂任务,进行详尽的思考分析。
-
手动切换模式:用户可以通过特定的 meta prompt 指定模型采用快思考或慢思考模式,例如 META_PROMPT: system 1 和 META_PROMPT: system 2。
-
自适应切换模式:模型基于任务复杂度自动切换快慢思考模式。例如,在数学任务中,根据问题的计算复杂度和思考复杂度,模型会自动判定问题的难易程度并选择合适的思考模式。
技术实现与优化
-
迭代蒸馏与知识巩固:采用基于模型感知型迭代蒸馏的 SFT 方案,动态选择与模型当前能力相匹配的数据样本进行训练,并通过模型合并策略保留早期知识,避免知识遗忘。
-
多源自适应奖励系统(MARS):融合正确奖励、偏好奖励和其他奖励,为不同任务生成动态的、特定于任务的奖励信号,提升模型输出的稳定性和结构完整性。
-
课程数据混合策略:在强化学习阶段评估每个数据样本的复杂性,将不同难度的样本组合逐步反馈给模型训练,实现高效且稳定的策略更新。
-
基于昇腾集群的 RL 基础架构:针对昇腾优化的高效可扩展框架,通过延时同步并行调度器和分布式优先级数据队列解决协调瓶颈问题,并实现训练和推理管道之间的模型参数无缝共享。
性能表现与行业应用
-
通用评测榜单:在多个推理密集型基准测试中,盘古 Embedded 在慢思考模式下表现出领先能力,而在快思考模式下也具有很强的竞争力。
-
行业垂域能力拓展:以法律行业为例,通过合成思维过程数据、多种类型数据配比、拒绝采样、蒸馏等技术提升模型的法律专业能力,平均准确率达到 54.59%。
自适应快慢思考模式的优势
在数学测试基准上,盘古 Embedded 能够根据任务复杂程度自动调整推理深度。在 GSM8K 数据集中,慢思考模式的使用率低至 14.56%,而在 MATH500 基准测试中,慢思考模式的使用率随问题难度增加而单调增加,有效实现了计算效率和推理准确性的平衡。
结语
华为盘古 Embedded 模型通过双系统认知架构和两阶段训练框架,解决了传统大模型在推理效率与精度方面的矛盾,为开发更高效、性能更强的语言模型提供了新的探索路径。其在通用领域和行业垂域的出色表现,展示了其在实际应用中的广阔前景。