腾讯AI Lab于6月16日正式开源了其音乐生成大模型SongGeneration。该模型旨在解决当前AI音乐生成(AIGC)领域普遍面临的三大核心挑战:音质表现、音乐性(旋律、结构、和谐度)和生成速度,并取得了显著突破。基于创新的LLM-DiT融合架构,SongGeneration在保持高效生成的同时,显著提升了输出音乐的质量,其表现媲美甚至超越部分商业闭源模型,并在多个关键维度上优于现有主流开源模型。
核心亮点与技术突破:
- 卓越性能表现:
- 评测领先: 在与中国传媒大学联合进行的全方位评测中(涵盖客观工具分析与专业+普通用户主观聆听),SongGeneration在开源模型中稳居第一。在主观评测的歌词准确度(LYC)上甚至超越了包括Suno v4.5在内的商业模型。
- 比肩商业模型: 在旋律(MEL)、伴奏(HAM)、音质(AQ)、结构(SSC)和整体表现(OVL)等核心音乐性维度上,其表现与顶级商业模型Suno v4.5难分伯仲,在制作质量(PQ)、内容欣赏度(CE)和内容实用性(CU)等客观指标上也位列前茅。
- 强大且易用的功能:
- 文本控制: 用户输入关键词(如“开心 流行”、“激烈 摇滚”)即可生成高质量完整音乐。
- 风格跟随: 上传10秒以上参考音频,模型能生成风格一致的全长新曲,覆盖流行、摇滚、中国风、“神曲”等多种流派。
- 多轨生成: 自动生成分离的人声与伴奏轨道,保证旋律、结构、节奏与配器的高度匹配。
- 音色跟随: 基于参考音频实现“音色克隆”级别的人声表现,听感自然,情感表达力强。
- 关键技术突破:
- 超低比特率音乐编解码(0.35kbps @25Hz): 业内开源最低码率/比特率,可将48kHz双通道音乐压缩成极低维度的离散表征,实现高保真还原,极大减轻后续语言模型预测压力。创新支持“混合轨道”和“双轨道”两种编码模式,分别优化整体和谐度与细节清晰度。
- “混合优先,双轨其次”并行预测: 首创策略,先用语言模型预测混合token(指导整体结构),再用扩展解码器并行建模人声和伴奏token,有效解决双轨不和谐问题,避免序列长度倍增。
- 多维度人类偏好对齐(业内首个): 创新性地解决音乐数据质量不均和标注不可靠问题。提出低成本半自动方法构建大规模偏好数据对,聚焦音乐性、歌词对齐、提示一致性三大偏好维度,并采用基于插值的DPO进行优化对齐。
- 三阶段训练范式: 包含预训练、模块化扩展训练(解冻扩展模块学习双轨细节)、多偏好对齐训练,有效提升模型能力并保留预训练知识。
- 应用前景广阔:
模型兼具C端可玩性与B端稳定性及拓展性,可广泛应用于:
开源与体验:
腾讯AI Lab已全面开放SongGeneration:
- 模型权重 & 代码: GitHub仓库 (
https://github.com/tencent-ailab/SongGeneration
) - 技术论文: arXiv (
https://arxiv.org/abs/2506.07520
) - 在线体验: Hugging Face Spaces (
https://huggingface.co/spaces/tencent/SongGeneration
) - 模型主页: Hugging Face (
https://huggingface.co/tencent/SongGeneration
)
总结:
腾讯AI Lab开源的SongGeneration音乐大模型,凭借其在音质、音乐性、速度上的显著突破,以及文本控制、风格跟随、多轨生成、音色克隆等强大功能,为AI音乐生成领域树立了新的标杆。其全面的开源策略,让开发者、音乐爱好者和相关产业都能便捷地使用这一先进工具,真正朝着“人人皆可创作音乐”的未来愿景迈进。
版权声明:AI工具箱导航 发表于 2025-06-20 13:13:00。
转载请务必标明出处:腾讯AI Lab开源音乐大模型SongGeneration:攻克音质、音乐性、速度三大难题,人人皆可创作 | AI工具箱导航
转载请务必标明出处:腾讯AI Lab开源音乐大模型SongGeneration:攻克音质、音乐性、速度三大难题,人人皆可创作 | AI工具箱导航