ICLR 2025 | 无需训练加速20倍!清华朱军团队革新图像翻译技术

在2025年的国际学习表征会议(ICLR)上,清华大学朱军团队提出的​​扩散桥隐式模型(Diffusion Bridge Implicit Models, DBIM)​​引发广泛关注。这项研究针对图像翻译、修复等任务中的扩散模型效率难题,通过创新推理算法实现​​无需额外训练的20倍加速​​,同时显著提升生成质量

ICLR 2025 | 无需训练加速20倍!清华朱军团队革新图像翻译技术

ICLR 2025 | 无需训练加速20倍

​技术背景:扩散桥模型的挑战​

传统扩散模型(如DDPM)擅长从噪声生成数据,但在图像翻译这类输入与输出存在明确映射的任务中表现不佳。扩散桥模型(DDBMs)虽能建模两个分布间的桥接过程,但其依赖复杂的微分方程,需数百步迭代计算,导致高分辨率任务中效率低下。此外,初始条件的奇异性和随机性控制问题进一步限制了应用场景

​DBIM的核心创新​

DBIM的核心突破在于​​非马尔可夫扩散桥的构建​​与​​高效推理算法的设计​​:

  1. ​灵活可控的采样过程​​:引入方差参数ρ,支持从随机到确定性采样的无缝切换。确定性模式下,DBIM以隐式形式表示生成过程,大幅减少计算步骤。
  2. ​高阶数值求解与启动噪声机制​​:通过改进常微分方程(ODE)表达形式,提出高阶数值解法,提升精度;同时,初始步骤加入“启动噪声”平衡生成多样性与语义编码能力,避免奇异性问题。
  3. ​数学形式简化​​:相比DDBM,DBIM的ODE形式更简洁,为算法优化奠定基础。

​实验结果:效率与质量双突破​

在多项基准测试中,DBIM展现出显著优势:

  • ​Edges→Handbags(64×64)任务​​:仅需20步推理即超越传统模型118步的效果,加速比达5.9倍;100步时生成质量进一步提升。
  • ​ImageNet 256×256图像修复​​:20步推理效果优于DDBM 500步结果,加速25倍;100步时刷新FID记录。
  • ​高阶采样器优化​​:在低步数下增强图像细节,如DIODE-Outdoor(256×256)任务中,纹理和边缘清晰度提升30%。

​应用前景与行业影响​

DBIM的推出为医疗影像修复、实时图像风格迁移等场景提供新可能。例如,在核电站流体模拟或自动驾驶环境感知中,高分辨率图像的快速生成将显著提升系统响应速度。团队已开源代码与模型,推动技术落地

​总结与展望​

DBIM不仅解决了扩散桥模型的效率瓶颈,更为扩散模型家族提供了可扩展的推理框架。未来,结合朱军团队在概率机器学习领域的积累,这一技术有望与语言模型、科学计算(如PDE求解)结合,推动通用生成式AI的进化。

版权声明:AI工具箱导航 发表于 2025-04-28 10:49:03。
转载请务必标明出处:ICLR 2025 | 无需训练加速20倍!清华朱军团队革新图像翻译技术 | AI工具箱导航