NUS推出OmniConsistency:极低成本复现GPT-4o图像风格化一致性

图像风格化领域,开源社区与商业API之间一直存在较大差距。近期,由新加坡国立大学(NUS)ShowLab主导完成的OmniConsistency项目,有望打破这一局面,为开源生态注入接近商业级的能力。
此前,GPT-4o的图像风格化与编辑能力令人惊艳,而开源扩散模型在image-to-image风格迁移中却面临“跷跷板困境”,即增强风格化效果会牺牲细节、结构和语义一致性,保持一致性则风格表达退化。OmniConsistency的出现,成功解决了这一难题。
NUS推出OmniConsistency:极低成本复现GPT-4o图像风格化一致性

NUS推出OmniConsistency:极低成本复现GPT-4o图像风格化一致性

OmniConsistency的核心优势

OmniConsistency是一个基于DiT的通用一致性增强插件,它能在保持强烈风格化效果的同时,精准保留输入图像的细节、语义和结构。其训练仅用2600对GPT-4o生成的高质量图像,约500小时GPU算力,成本极低。以下是其主要亮点:
  • 解决风格化与一致性之间的跷跷板问题 :打破了图像风格化任务中 “风格表达” 与 “一致性保持” 之间的困境,实现两者的兼顾。
  • 即插即用,兼容性强 :兼容社区任意Flux底模的风格LoRA,以Plug-and-Play LoRA方式设计,一致性模块与风格LoRA使用独立 “插槽”,无参数冲突,无需修改或重训练社区风格LoRA模型即可联动。同时,还兼容EasyControl/IP-Adapter等控制信号。
  • 轻量高效,效果出色 :媲美GPT-4o,推理显存与时间开销相比Flux text2image pipeline仅增加约5%,适合部署到生产环境。

技术创新与方法介绍

OmniConsistency提出了一种全新的风格 – 一致性解耦学习方法,包含以下关键设计:
  • In-Context一致性学习框架 :创新性地利用原图与其高一致性风格化结果的成对关系,专门学习图像在风格迁移中的一致性保持规律。具体是将原图经过VAE编码得到的clean latent token拼接到denoise token上,通过因果注意力机制引导模型学习配对图像风格化前后的一致性。
  • 两阶段风格 – 一致性解耦训练策略 :第一阶段进行风格学习,基于22种不同艺术风格,用风格化结果图为每种风格独立训练一个LoRA模块,构建稳定风格LoRA模块库;第二阶段进行一致性学习,冻结所有风格LoRA,用风格化前后的配对数据训练轻量级一致性模块(Consistency LoRA),并设计LoRA Bank滚动加载机制,确保一致性模块专注于跨风格保持结构和语义,不学习具体风格内容,极大提升了模型对多风格场景下的一致性泛化能力。
  • 模块化架构设计 :采用模块化设计,使系统具有很强的兼容性和扩展性。

数据集构建与效果评估

研究团队采用GPT-4o自动生成了一套高质量配对数据,设计22种不同风格的提示词,上传原始图像生成对应风格化版本,并配上详细文本描述,经人工筛选后得到2600对高质量图像对,涵盖多种风格。
在效果评估方面,OmniConsistency能很好地维持风格化前后构图、语义、细节一致,对人物面部特征维持也有一定作用,对多人合影等复杂场景,可维持人数、姿势、性别、种族、年龄等信息,甚至能维持图片中的英文文字正确性。此外,它对训练阶段未见过的风格LoRA也有很好的泛化作用。通过多项指标评估,包括风格一致性、内容一致性、图文对齐等,结果显示OmniConsistency在风格一致性、内容一致性等方面均优于基线,风格化程度接近LoRA文生图效果,且泛化能力出色。
OmniConsistency项目的成功,为图像风格化领域提供了一种高效、低成本且性能出色的技术方案,有望推动开源图像风格化技术的发展,让更多开发者和研究者能够利用这一技术创造出更丰富、更高质量的图像风格化作品,进一步缩小开源社区与商业API之间的差距。
版权声明:AI工具箱导航 发表于 2025-06-03 18:10:13。
转载请务必标明出处:NUS推出OmniConsistency:极低成本复现GPT-4o图像风格化一致性 | AI工具箱导航