PixelHacker 采用潜在类别引导(LCG)范式,将图像前景与背景分别编码,借助线性注意力机制将特征融入去噪过程,实现结构和语义一致性,为图像修复提供强大支撑。
该模型基于 1400 万图像 – 掩码对的大规模数据集预训练,并在 Places2、CelebA-HQ 和 FFHQ 等开源基准数据集上进行微调,确保其在自然场景、人脸图像等多种数据集上具备卓越的修复能力。它不仅能高质量地修复图像,填补划痕、污渍等,还能确保修复区域与周围环境在纹理、形状和颜色上自然过渡,保持场景逻辑性。同时,对风景、人脸、复杂背景等不同类型的图像具有良好的适应性,支持多种分辨率和掩码类型。
PixelHacker 的技术优势明显,其扩散模型架构基于逐步去噪过程生成图像内容,结合线性注意力,在去噪过程中注入前景和背景的潜在特征,确保生成内容的结构和语义一致性。训练时,运用多种掩码构造图像 – 掩码对,分配到前景或背景嵌入中。推理阶段,采用分类器自由引导(CFG)技术,平衡生成内容的多样性和一致性。
其应用场景广泛,可修复老旧照片,移除图像中的无关对象,辅助创意内容生成,助力医学影像修复,还可用于文化遗产保护,修复文物和古籍图像。