极低成本复现 GPT-4o 图像风格化一致性:NUS 推出 OmniConsistency

前不久,GPT-4o 展现出令人惊艳的图像风格化与编辑能力,但开源社区与商业 API 在图像风格化一致性上存在巨大差距。开源扩散模型在 image-to-image 风格迁移中普遍面临风格化效果与细节、结构和语义一致性难以兼顾的困境。为解决这一难题,NUS 推出 OmniConsistency。
极低成本复现 GPT-4o 图像风格化一致性:NUS 推出 OmniConsistency

极低成本复现 GPT-4o 图像风格化一致性:NUS 推出 OmniConsistency

OmniConsistency 是一个基于 DiT 的通用一致性增强插件,它能在保持强烈风格化效果的同时,精准保留输入图像的细节、语义和结构。其训练仅用了 2600 对 GPT-4o 生成的高质量图像,全流程约需 500 小时 GPU 算力,成本极低。

现有方法的局限性

目前 AI 图生图业务的主流做法是组合风格化 LoRA + 一致性插件 + image2image pipeline。然而,当将风格 LoRA 模块与一致性模块组合使用时,风格模块的 “自由发挥” 与一致性模块的 “严谨控制” 相互掣肘。尤其在 I2I 任务中,风格表达往往被削弱,出现明显风格退化,陷入风格化强度和一致性难以两全的困境。

OmniConsistency 的核心设计

  1. In-Context 一致性学习框架 :创新性地提出基于风格化图像对的一致性学习机制,直接利用原图与其高一致性风格化结果的成对关系,学习图像在风格迁移中的一致性保持规律。具体做法是将原图经过 VAE 编码得到的 clean latent token 拼接到 denoise token 上,通过因果注意力机制引导模型学习配对图像风格化前后的一致性。
  2. 两阶段风格 – 一致性解耦训练策略 :第一阶段进行风格学习,基于 22 种不同艺术风格,为每种风格独立训练一个 LoRA 模块,构建稳定风格 LoRA 模块库;第二阶段进行一致性学习,冻结所有风格 LoRA,用风格化前后的配对数据训练轻量级一致性模块(Consistency LoRA),采用 LoRA Bank 滚动加载机制,确保一致性模块专注于跨风格保持结构和语义,而不学习具体风格内容。
  3. 模块化架构设计 :OmniConsistency 是一套完全模块化的插拔系统,兼容性极强。一致性模块作用于条件分支,与风格 LoRA 使用独立 “插槽”,无参数冲突,任何 HuggingFace 社区风格 LoRA 模型均可直接联动,无需修改或重训练。同时,因采用因果注意力 + 条件注入策略,其他控制方法也可无缝集成,互不干扰。

数据集构建

采用 GPT-4o 自动生成高质量配对数据,设计 22 种不同风格提示词,上传原始图像生成对应风格化版本,并配上详细文本描述。经人工筛选,剔除问题图后,精选出 2600 对高质量图像对,涵盖动漫、素描、像素画、水彩、赛博朋克等风格。

效果评估

OmniConsistency 能很好维持风格化前后构图、语义、细节一致,对人物面部特征维持有一定作用,对多人合影等复杂场景,可维持人数、姿势、性别、种族、年龄等,甚至能保持图片中英文文字正确性。对未见过的风格 LoRA 也有良好泛化作用。
论文构建全新数据集,包括 22 种风格、2600 对高质量图像对,用 100 张复杂场景测试图作为 benchmark,采用多项指标全面评估,结果显示其在风格一致性、内容一致性、图文对齐等方面表现优异,且推理显存与时间开销相比 Flux text2image pipeline 仅增加约 5%,适合部署到生产环境。
总之,OmniConsistency 凭借其创新的设计和强大的性能,为开源生态注入接近商业级的图像风格化一致性能力,有望推动相关技术的进一步发展和应用。
版权声明:AI工具箱导航 发表于 2025-06-02 12:17:00。
转载请务必标明出处:极低成本复现 GPT-4o 图像风格化一致性:NUS 推出 OmniConsistency | AI工具箱导航