PixelHacker：华中科技与 VIVO 联合打造的图像修复利器

0 0

华中科技大学与 VIVO AI Lab 联合推出的 PixelHacker 图像修复模型，凭借其创新技术，在图像修复领域独树一帜。

PixelHacker 采用潜在类别引导（LCG）范式，将图像前景与背景分别编码，借助线性注意力机制将特征融入去噪过程，实现结构和语义一致性，为图像修复提供强大支撑。

该模型基于 1400 万图像 – 掩码对的大规模数据集预训练，并在 Places2、CelebA-HQ 和 FFHQ 等开源基准数据集上进行微调，确保其在自然场景、人脸图像等多种数据集上具备卓越的修复能力。它不仅能高质量地修复图像，填补划痕、污渍等，还能确保修复区域与周围环境在纹理、形状和颜色上自然过渡，保持场景逻辑性。同时，对风景、人脸、复杂背景等不同类型的图像具有良好的适应性，支持多种分辨率和掩码类型。

PixelHacker 的技术优势明显，其扩散模型架构基于逐步去噪过程生成图像内容，结合线性注意力，在去噪过程中注入前景和背景的潜在特征，确保生成内容的结构和语义一致性。训练时，运用多种掩码构造图像 – 掩码对，分配到前景或背景嵌入中。推理阶段，采用分类器自由引导（CFG）技术，平衡生成内容的多样性和一致性。

其应用场景广泛，可修复老旧照片，移除图像中的无关对象，辅助创意内容生成，助力医学影像修复，还可用于文化遗产保护，修复文物和古籍图像。

该项目的官网地址为 https://hustvl.github.io/PixelHacker/，GitHub 仓库位于 https://github.com/hustvl/PixelHacker