在2025年的国际学习表征会议(ICLR)上,清华大学朱军团队提出的扩散桥隐式模型(Diffusion Bridge Implicit Models, DBIM)引发广泛关注。这项研究针对图像翻译、修复等任务中的扩散模型效率难题,通过创新推理算法实现无需额外训练的20倍加速,同时显著提升生成质量。
技术背景:扩散桥模型的挑战
传统扩散模型(如DDPM)擅长从噪声生成数据,但在图像翻译这类输入与输出存在明确映射的任务中表现不佳。扩散桥模型(DDBMs)虽能建模两个分布间的桥接过程,但其依赖复杂的微分方程,需数百步迭代计算,导致高分辨率任务中效率低下。此外,初始条件的奇异性和随机性控制问题进一步限制了应用场景。
DBIM的核心创新
DBIM的核心突破在于非马尔可夫扩散桥的构建与高效推理算法的设计:
- 灵活可控的采样过程:引入方差参数ρ,支持从随机到确定性采样的无缝切换。确定性模式下,DBIM以隐式形式表示生成过程,大幅减少计算步骤。
- 高阶数值求解与启动噪声机制:通过改进常微分方程(ODE)表达形式,提出高阶数值解法,提升精度;同时,初始步骤加入“启动噪声”平衡生成多样性与语义编码能力,避免奇异性问题。
- 数学形式简化:相比DDBM,DBIM的ODE形式更简洁,为算法优化奠定基础。
实验结果:效率与质量双突破
在多项基准测试中,DBIM展现出显著优势:
- Edges→Handbags(64×64)任务:仅需20步推理即超越传统模型118步的效果,加速比达5.9倍;100步时生成质量进一步提升。
- ImageNet 256×256图像修复:20步推理效果优于DDBM 500步结果,加速25倍;100步时刷新FID记录。
- 高阶采样器优化:在低步数下增强图像细节,如DIODE-Outdoor(256×256)任务中,纹理和边缘清晰度提升30%。
应用前景与行业影响
DBIM的推出为医疗影像修复、实时图像风格迁移等场景提供新可能。例如,在核电站流体模拟或自动驾驶环境感知中,高分辨率图像的快速生成将显著提升系统响应速度。团队已开源代码与模型,推动技术落地。
总结与展望
DBIM不仅解决了扩散桥模型的效率瓶颈,更为扩散模型家族提供了可扩展的推理框架。未来,结合朱军团队在概率机器学习领域的积累,这一技术有望与语言模型、科学计算(如PDE求解)结合,推动通用生成式AI的进化。