豆包 1.5・深度思考模型包含 Doubao-1.5-thinking-pro 和具备多模态能力的 Doubao-1.5-thinking-pro-vision 两个版本。其中,Doubao-1.5-thinking-pro 在多项主流基准测试评估中表现卓越,在数学推理、编程竞赛、科学推理等专业领域任务以及创意写作等通用任务中均有出色表现。而 Doubao-1.5-thinking-pro-vision 则具备强大的视觉理解能力,能够像人类一样基于所见画面进行思考,为用户带来更立体、更深度的思考体验。
该模型采用 MoE 架构,总参数为 200B,激活参数仅 20B,具有显著的训练和推理成本优势。在专业级推理上,其数学推理的 AIME 2024 得分追平 OpenAI o3-mini-high,代码能力的 Codeforces pass@8 接近 Gemini 2.5 Pro,科学推理的 GPQA 得分也接近 o3-mini-high。此外,团队通过优化数据处理策略和采用创新的双轨奖励机制,进一步提升了模型的通用能力和算法的可靠优化。
豆包 1.5・深度思考模型的低延迟特点使其在实际应用中更具优势。基于高效算法,该模型在提供行业极高并发承载能力的同时,实现了 20 毫秒极低延迟。豆包 APP 基于该模型进行了定向训练,将联网能力和深度思考深度绑定,实现了类似人类的「边想边搜」的思维方式,能够为用户提供更全面、准确、契合需求的结果。
在应用场景方面,豆包 1.5・深度思考模型展现了广泛的应用潜力。例如,在购物推荐场景中,能够根据用户提出的苛刻条件,经过多轮搜索后给出符合预算范围的细致答案。在处理需要空间、形态或动态变化的任务时,视觉版 Doubao-1.5-thinking-pro-vision 可以结合文本、图像等多源信息,解决综合感知任务,补充文本描述中的模糊性。
同时,豆包大模型家族的其他成员也迎来了重磅升级。豆包・视觉理解模型增强了视觉定位能力和视频搜索能力,豆包文生图模型 3.0 凭借更好的文字排版表现、实拍级的图像生成效果和 2K 的高清图片生成等优势,重新树立了生成式视觉技术的工业级应用标杆。
火山引擎还面向 Agent 服务发布了 OS Agent 解决方案、GUI Agent 大模型 —— 豆包 1.5・UI-TARS 模型,以及面向大规模推理发布的 AI 云原生・ServingKit 推理套件。这些工具和解决方案的发布,进一步提升了模型面向企业复杂场景分析能力,为智能决策与行动提供支持。
豆包大模型家族自诞生以来发展迅速,目前已拥有 15 位成员。火山引擎通过打造覆盖完整链路的相关产品,支持 AI 应用落地,帮助企业解决效果不好、成本太贵、落地太难等问题。随着豆包 1.5・深度思考模型的上线,人工智能的能力边界正在无限趋近于人类专家,一个全新的多模态推理时代已经到来。