【技术突破】
火山引擎推出的豆包·语音播客模型,基于流式模型架构,首次实现从文本到双人对话式播客的秒级转化。用户仅需输入主题或热点话题(如“睡得少和睡得晚,哪一个危害更大?”),模型即可生成自然流畅的对话音频,全程无需人工剪辑,大幅降低创作门槛。
【三大核心优势】
- 双人对话自然流畅
突破传统AI语音的机械感,模型深度学习真人播客中的附和、停顿等口语化表达,支持双角色互动,对话逻辑清晰且富有节奏感,接近专业播客录制效果。 - 创作效率颠覆性提升
构建端到端生成链路,输入文本后5秒内输出成品,支持超长文本(如文档、网页链接)直接转播客,满足热点事件快速响应需求。 - 时事热点极速追踪
内置实时搜索功能,可同步抓取最新资讯,结合用户输入生成时效性内容,让播客创作与热点“零时差”。
【应用场景】
- 个人创作者:快速产出知识分享、情感访谈类播客,降低设备与剪辑成本;
- 企业品牌:生成品牌故事、产品解读音频,适配短视频平台的音频内容需求;
- 教育机构:将教材、讲座内容转为互动式播客,提升知识传播趣味性。
【上线计划】
模型即将在豆包APP、PC端及扣子(智能助手平台)陆续上线,并计划在6月11日「2025火山引擎Force原动力大会」上公布更多创新玩法,如多人协作播客、多语种支持等功能。
【行业影响】
豆包·语音播客模型的推出,标志着AI播客从“单向输出”迈向“强互动”阶段:
- 对创作者:释放内容生产力,推动播客创作民主化;
- 对行业:加速音频内容的规模化生产,抢占AI生成式音频赛道先机;
- 对用户:享受更丰富、更鲜活的语音内容消费体验。
结语
从文本到“真人级”对话播客,豆包·语音播客模型正在重新定义内容创作的边界。未来,随着AI技术与场景的深度融合,或许每个人都能成为“播客生产者”。