近期,西湖大学 MAPLE 实验室齐国君教授团队在大模型推理领域取得重大突破,首次提出扩散式「发散思维链」这一创新概念。该成果不仅为大型语言模型的训练与推理提供了新思路,更在数学推理和代码生成等任务上展现出卓越性能,有望成为未来扩散语言模型训练的标准范式。
一、思维链的革新:从线性到非线性
传统思维链(CoT)主要采用线性推理方式,模型按照固定的因果顺序逐步生成答案。然而,这种线性模式与人类思维构建机制存在本质差异,限制了模型的创造力和灵活性。人类思维在构思阶段往往呈现非线性发散特征,能够突破语言框架,通过跳跃性方式生成概念原型和初始设想。
扩散式「发散思维链」(Diffusion Chain of Lateral Thoughts, DCoLT)应运而生,它将反向扩散过程中的每一步中间结果视为模型的「思考」步骤,利用基于结果的强化学习优化整个生成轨迹,最大化最终答案的正确率。与传统思维链不同,它允许模型以任意顺序非线性生成,无需严格遵从语法结构和可读性要求,鼓励模型以更发散、创造性的方式开展推理。
二、技术实现:连续与离散时间扩散语言模型
在连续时间扩散语言模型中,该方法直接优化模型输出的得分函数所确定的策略分布。以 SEDD 模型为例,通过线性常微分方程描述演化过程,利用欧拉法数值求解,计算每一步的转移概率,进而得到多步生成的迭代公式,从而实现对扩散过程的优化。
对于离散时间扩散语言模型,团队以 LLaDA 模型为基础,设计了有序掩码生成扩散语言模型(LLaDOU)。该模型将预测不同掩码 Token 的顺序作为模型决策的一部分,并基于 Plackett-Luce 模型设计去掩码策略。具体来说,LLaDOU 模型通过「去掩码策略模块」(UPM)为每个掩码字符预测得分值,采用 Plackett–Luce 模型定义策略,从中采样得到去掩码列表。确定去掩码的 token 集合后,模型根据词汇表上的输出分布预测相应的 token 值,最终实现灵活的非线性语言生成。
三、实验验证:显著提升推理性能
团队基于两个具有代表性的扩散语言模型 ——SEDD 和 LLaDA 开展实验验证。在 SEDD 模型上,DCoLT 在数独解题和数学推理任务上取得了优异成绩,如在 GSM8K-Aug 数据集上,DCoLT 取得了 57.0% 准确率,超越了使用详细 CoT 标注的 DoT。
在 LLaDA 8B 模型基础上训练的 LLaDOU 模型,在数学推理和代码生成任务上表现出色,显著提升了复杂数学逻辑问题的推理准确率和代码生成的测试通过率。实验结果显示,LLaDOU 超越了其他扩散语言模型,在相关评测基准上取得了最佳性能。
四、关键启示与未来展望
扩散式「发散思维链」的提出,揭示了通过优化 token 生成顺序进行非线性语言生成是发散式思维的重要特点。这一创新范式打破了传统的自回归思维链语言模型的局限,为复杂推理问题提供了创新性解决方案。
随着谷歌发布 Gemini Diffusion 语言模型,研究人员期待将「发散思维链」强化技术应用到更多扩散语言模型上。未来,该技术有望成为扩散语言模型标准训练过程的一部分,进一步推动大型语言模型在推理任务中的性能提升和发展。