腾讯AI Lab开源音乐大模型SongGeneration:攻克音质、音乐性、速度三大难题,人人皆可创作​

腾讯AI Lab于6月16日正式开源了其音乐生成大模型​SongGeneration​​。该模型旨在解决当前AI音乐生成(AIGC)领域普遍面临的三大核心挑战:​​音质表现、音乐性(旋律、结构、和谐度)和生成速度​​,并取得了显著突破。基于创新的LLM-DiT融合架构,SongGeneration在保持高效生成的同时,显著提升了输出音乐的质量,其表现媲美甚至超越部分商业闭源模型,并在多个关键维度上优于现有主流开源模型。

腾讯AI Lab开源音乐大模型SongGeneration:攻克音质、音乐性、速度三大难题,人人皆可创作​

腾讯AI Lab开源音乐大模型SongGeneration

​核心亮点与技术突破:​

  1. ​卓越性能表现:​
    • ​评测领先:​​ 在与中国传媒大学联合进行的全方位评测中(涵盖客观工具分析与专业+普通用户主观聆听),SongGeneration在开源模型中​​稳居第一​​。在主观评测的​​歌词准确度(LYC)​​上甚至超越了包括Suno v4.5在内的商业模型。
    • ​比肩商业模型:​​ 在​​旋律(MEL)、伴奏(HAM)、音质(AQ)、结构(SSC)和整体表现(OVL)​​等核心音乐性维度上,其表现与顶级商业模型Suno v4.5难分伯仲,在制作质量(PQ)、内容欣赏度(CE)和内容实用性(CU)等客观指标上也​​位列前茅​​。
  2. ​强大且易用的功能:​
    • ​文本控制:​​ 用户输入关键词(如“开心 流行”、“激烈 摇滚”)即可生成高质量完整音乐。
    • ​风格跟随:​​ 上传10秒以上参考音频,模型能生成风格一致的全长新曲,覆盖流行、摇滚、中国风、“神曲”等多种流派。
    • ​多轨生成:​​ 自动生成分离的​​人声与伴奏轨道​​,保证旋律、结构、节奏与配器的高度匹配。
    • ​音色跟随:​​ 基于参考音频实现“音色克隆”级别的人声表现,听感自然,情感表达力强。
  3. ​关键技术突破:​
    • ​超低比特率音乐编解码(0.35kbps @25Hz):​​ 业内开源最低码率/比特率,可将48kHz双通道音乐压缩成极低维度的离散表征,实现高保真还原,极大减轻后续语言模型预测压力。创新支持“混合轨道”和“双轨道”两种编码模式,分别优化整体和谐度与细节清晰度。
    • ​“混合优先,双轨其次”并行预测:​​ 首创策略,先用语言模型预测混合token(指导整体结构),再用扩展解码器并行建模人声和伴奏token,有效解决双轨不和谐问题,避免序列长度倍增。
    • ​多维度人类偏好对齐(业内首个):​​ 创新性地解决音乐数据质量不均和标注不可靠问题。提出低成本半自动方法构建大规模偏好数据对,聚焦​​音乐性、歌词对齐、提示一致性​​三大偏好维度,并采用基于插值的DPO进行优化对齐。
    • ​三阶段训练范式:​​ 包含预训练、模块化扩展训练(解冻扩展模块学习双轨细节)、多偏好对齐训练,有效提升模型能力并保留预训练知识。
  4. ​应用前景广阔:​
    模型兼具C端可玩性与B端稳定性及拓展性,可广泛应用于:

    • 短视频配乐​
    • 游戏音效设计​
    • ​虚拟人演出​
    • ​商业广告制作​
    • ​个人音乐创作​
      目标是构建开放、灵活、可持续的音乐AI生态系统,推动AI音乐创作从“辅助工具”迈向“智能共创”的新阶段。

​开源与体验:​
腾讯AI Lab已全面开放SongGeneration:

  • ​模型权重 & 代码:​​ GitHub仓库 (https://github.com/tencent-ailab/SongGeneration)
  • ​技术论文:​​ arXiv (https://arxiv.org/abs/2506.07520)
  • ​在线体验:​​ Hugging Face Spaces (https://huggingface.co/spaces/tencent/SongGeneration)
  • ​模型主页:​​ Hugging Face (https://huggingface.co/tencent/SongGeneration)

​总结:​
腾讯AI Lab开源的SongGeneration音乐大模型,凭借其在音质、音乐性、速度上的显著突破,以及文本控制、风格跟随、多轨生成、音色克隆等强大功能,为AI音乐生成领域树立了新的标杆。其全面的开源策略,让开发者、音乐爱好者和相关产业都能便捷地使用这一先进工具,真正朝着“人人皆可创作音乐”的未来愿景迈进。