在数字化浪潮下,SVG(可缩放矢量图形)因其出色的可缩放性和清晰度,在网页设计、品牌标识、用户界面设计、教育与培训材料等领域广泛应用。然而,创建这些图形往往需要专业设计技能和工具,对非专业人士存在较高门槛。为解决这一痛点,复旦大学与阶跃星辰联合推出了 OmniSVG,这一 SVG 矢量图生成大模型有望改变游戏规则。

复旦与阶跃星辰联合发布 SVG 矢量图生成大模型 OmniSVG,突破 3 万 Token 极限
现有方法的局限性
现有基于优化的方法通过优化可微分的矢量图形光栅化器,迭代调整 SVG 参数,在生成 SVG 图标方面有一定效果,但在处理复杂样本时计算开销大,且生成的输出结构不清晰、存在冗余锚点。自回归 SVG 生成方法存在上下文窗口长度限制和复杂 SVG 数据匮乏两大局限,限制了其生成复杂 SVG 内容的能力,也制约了模型的学习和生成能力。
OmniSVG 的突破
统一的多模态复杂 SVG 生成框架
OmniSVG 作为首个利用预训练视觉语言模型(VLM)进行端到端多模态复杂 SVG 生成的统一框架,将 SVG 的坐标和命令参数化为离散的标记,将结构逻辑与低级几何信息解耦,解决了代码生成模型中的「坐标幻觉」问题,能够生成生动且多彩的 SVG 结果。其下一标记预测的训练目标,使其在给定部分观测的情况下,能生成多样化的 SVG 内容。与传统方法相比,OmniSVG 能处理长度高达 3 万个 Token 的 SVG,有力地推动了复杂高质量 SVG 的生成。基于预训练的 VLM,OmniSVG 能理解视觉和文本指令,合成可编辑的高保真 SVG,适用于图标、复杂插图、动漫角色等多种领域。
MMSVG-2M 数据集和 MMSVG-Bench 评测平台
项目开源了 MMSVG-2M 数据集和 MMSVG-Bench 评测平台。MMSVG-2M 包含 200 万个 SVG 样本,涵盖网站图标、插图、平面设计、动漫角色等多种类型。MMSVG-Bench 评测平台则专注于文本转 SVG、图像转 SVG 以及角色参考生成 SVG 三个主要任务,为 SVG 生成技术的发展提供了有力支持。
实验结果
论文在 MMSVG-2M 数据集上,将 OmniSVG 与现有最佳方法进行了比较。结果显示,OmniSVG 在指令遵循性和生成 SVG 的美观性方面均优于现有方法。通过自然角色图像和 SVG 数据对训练,OmniSVG 能通过图像角色参考生成角色 SVG,展现了强大的生成能力。
结论与局限性
OmniSVG 作为一种统一的 SVG 生成模型,利用预训练 VLM 实现了端到端的多模态 SVG 生成,其参数化方法提高了训练效率,同时保持了复杂 SVG 结构的表现力。在多个条件生成任务中的出色表现,预示着其在专业 SVG 设计工作流中应用的巨大潜力。然而,在推理过程中,为复杂样本生成数以万计的标记导致生成时间较长。未来,将 SVG 风格图像和来源更丰富的自然图像融入协同训练工作流,有望提升模型对输入图像风格的鲁棒性。
复旦大学与阶跃星辰联合发布的 OmniSVG,为 SVG 矢量图生成带来了新的突破,其技术创新和强大功能有望降低设计门槛,推动 SVG 在更多领域的广泛应用。
论文标题:OmniSVG: A Unified Scalable Vector Graphics Generation Model 论文作者:Yiying Yang, Wei Cheng, Sijin Chen, Xianfang Zeng, Jiaxu Zhang, Liao Wang, Gang Yu, Xingjun Ma, Yu-Gang Jiang
版权声明:AI工具箱导航 发表于 2025-04-19 9:46:43。
转载请务必标明出处:复旦与阶跃星辰联合发布 SVG 矢量图生成大模型 OmniSVG,突破 3 万 Token 极限 | AI工具箱导航
转载请务必标明出处:复旦与阶跃星辰联合发布 SVG 矢量图生成大模型 OmniSVG,突破 3 万 Token 极限 | AI工具箱导航