极低成本复现 GPT-4o 图像风格化一致性：NUS 推出 OmniConsistency

AI快讯 3天前 AI工具箱导航

0 0

前不久，GPT-4o 展现出令人惊艳的图像风格化与编辑能力，但开源社区与商业 API 在图像风格化一致性上存在巨大差距。开源扩散模型在 image-to-image 风格迁移中普遍面临风格化效果与细节、结构和语义一致性难以兼顾的困境。为解决这一难题，NUS 推出 OmniConsistency。

OmniConsistency 是一个基于 DiT 的通用一致性增强插件，它能在保持强烈风格化效果的同时，精准保留输入图像的细节、语义和结构。其训练仅用了 2600 对 GPT-4o 生成的高质量图像，全流程约需 500 小时 GPU 算力，成本极低。

现有方法的局限性

目前 AI 图生图业务的主流做法是组合风格化 LoRA + 一致性插件 + image2image pipeline。然而，当将风格 LoRA 模块与一致性模块组合使用时，风格模块的 “自由发挥” 与一致性模块的 “严谨控制” 相互掣肘。尤其在 I2I 任务中，风格表达往往被削弱，出现明显风格退化，陷入风格化强度和一致性难以两全的困境。

OmniConsistency 的核心设计

In-Context 一致性学习框架 ：创新性地提出基于风格化图像对的一致性学习机制，直接利用原图与其高一致性风格化结果的成对关系，学习图像在风格迁移中的一致性保持规律。具体做法是将原图经过 VAE 编码得到的 clean latent token 拼接到 denoise token 上，通过因果注意力机制引导模型学习配对图像风格化前后的一致性。
两阶段风格 – 一致性解耦训练策略 ：第一阶段进行风格学习，基于 22 种不同艺术风格，为每种风格独立训练一个 LoRA 模块，构建稳定风格 LoRA 模块库；第二阶段进行一致性学习，冻结所有风格 LoRA，用风格化前后的配对数据训练轻量级一致性模块（Consistency LoRA），采用 LoRA Bank 滚动加载机制，确保一致性模块专注于跨风格保持结构和语义，而不学习具体风格内容。
模块化架构设计 ：OmniConsistency 是一套完全模块化的插拔系统，兼容性极强。一致性模块作用于条件分支，与风格 LoRA 使用独立 “插槽”，无参数冲突，任何 HuggingFace 社区风格 LoRA 模型均可直接联动，无需修改或重训练。同时，因采用因果注意力 + 条件注入策略，其他控制方法也可无缝集成，互不干扰。

数据集构建

采用 GPT-4o 自动生成高质量配对数据，设计 22 种不同风格提示词，上传原始图像生成对应风格化版本，并配上详细文本描述。经人工筛选，剔除问题图后，精选出 2600 对高质量图像对，涵盖动漫、素描、像素画、水彩、赛博朋克等风格。

效果评估

OmniConsistency 能很好维持风格化前后构图、语义、细节一致，对人物面部特征维持有一定作用，对多人合影等复杂场景，可维持人数、姿势、性别、种族、年龄等，甚至能保持图片中英文文字正确性。对未见过的风格 LoRA 也有良好泛化作用。

论文构建全新数据集，包括 22 种风格、2600 对高质量图像对，用 100 张复杂场景测试图作为 benchmark，采用多项指标全面评估，结果显示其在风格一致性、内容一致性、图文对齐等方面表现优异，且推理显存与时间开销相比 Flux text2image pipeline 仅增加约 5%，适合部署到生产环境。

总之，OmniConsistency 凭借其创新的设计和强大的性能，为开源生态注入接近商业级的图像风格化一致性能力，有望推动相关技术的进一步发展和应用。

AI资讯

版权声明：AI工具箱导航发表于 2025-06-02 12:17:00。
转载请务必标明出处：极低成本复现 GPT-4o 图像风格化一致性：NUS 推出 OmniConsistency | AI工具箱导航

极低成本复现 GPT-4o 图像风格化一致性：NUS 推出 OmniConsistency

现有方法的局限性

OmniConsistency 的核心设计

数据集构建

效果评估

华为盘古 Embedded：大模型推理的“左右脑”革命

Anthropic 年化收入突破 30 亿美元，AI 领域竞争格局生变