字节跳动旗下火山引擎于 4 月 17 日面向企业市场发布豆包 1.5・深度思考模型,标志着字节在 AI Agent 领域迈出关键一步。该模型具备联网搜索、视觉推理等多模态能力,可像人类一样 “边看边想边搜”,在购物推荐、点菜规划等场景中展现出综合推理优势,在数学推理、编程竞赛等专业测试中媲美 OpenAI 模型。此外,火山引擎推出 OS Agent 解决方案及 AI 云原生推理套件,助力企业高效构建和部署数字 / 物理世界操作型 Agent 应用,推动云服务进入 Agentic AI 时代。
一、豆包 1.5・深度思考模型:多模态融合的推理引擎
豆包 1.5・深度思考模型具备三大核心能力:
-
联网搜索与规划推理 :面对复杂任务,模型可通过多轮搜索完善信息,如在露营装备推荐场景中,依次检索价格、儿童适配性及天气相关评测,逐步构建决策依据。
-
视觉推理能力 :能直接处理图像信息并结合文字思考,在点菜场景下,可基于菜单图片完成汇率换算、饮食偏好适配及过敏项筛查。
-
低延迟与高效架构 :采用 MoE 架构,200B 总参数中仅激活 20B,保障高并发场景下 20 毫秒低延迟推理服务。
在专业与通用任务测试中,该模型均展现出色能力:
-
专业领域 :在数学推理 AIME 2024 测试中追平 OpenAI o3-mini-high,编程竞赛与科学推理测试成绩接近 o1 模型。
-
通用场景 :在创意写作、人文问答等任务中展现泛化能力,其文生图 3.0 版本实现实拍级 2K 图像生成,视觉理解模型升级后支持精准定位及视频语义搜索。
二、OS Agent 解决方案:让 Agent 操作物理与数字世界
火山引擎推出的 OS Agent 解决方案包含以下组件:
-
豆包 UI-TARS 模型 :整合屏幕视觉理解、界面元素定位与逻辑推理,可突破传统自动化工具规则限制,实现浏览器操作、视频剪辑等复杂任务。
-
veFaaS 函数服务与云原生工具链 :提供从模型调用到设备操作的全流程支持,适配多模态输入输出,助力企业定制垂直领域 Agent(如智能编程助手 Trae)。
该方案已在多场景落地验证:
-
电商比价 :Agent 可通过浏览器搜索比对 iPhone 价格,输出最优购买链接。
-
家庭视频语义检索 :用户可直接搜索监控视频中语义内容(如 “小猫今日活动”),快速返回相关片段。
-
智能硬件拓展 :为 AI 眼镜、智能门锁等设备提供视觉理解与决策支持,推动消费级硬件智能化升级。
三、多模态与深度思考:AI Agent 的核心驱动力
多模态融合赋予 Agent 更强的环境感知能力:
-
视觉增强决策 :在企业项目管理场景中,模型可解析复杂流程图并精准定位关键节点;分析航拍图时结合地貌特征评估开发可行性。
-
跨模态推理 :通过整合文字、图像、视频信息,Agent 能在复杂任务中动态调整策略,如在旅游规划中综合考虑预算、交通、景点适配性。
深度思考模型的技术突破:
-
反思与规划能力 :模型可通过模拟人类思维路径,逐步分解任务并验证中间结果,如在编程任务中先构建算法框架再验证边界条件。
-
端到端执行链路 :从任务定义到结果输出实现全流程自动化,减少人工干预需求,提升生产效率。
四、云服务进入 Agentic AI 时代
OpenAI 研究员姚顺雨指出,2025 年 AI 已从榜单竞赛转向现实问题解决,字节跳动火山引擎在这一变革中布局:
-
模型基础设施 :提供可自主规划、反思的深度思考模型,适配生产力 Agent 对复杂任务的需求。
-
云原生架构升级 :针对 MoE 等高效模型架构优化调度系统,推出 AI 云原生 ServingKit 推理套件,相比传统方案降低 80% GPU 消耗。
-
市场份额与技术投入 :据 IDC 报告,火山引擎以 46.4% 市场份额位居中国公有云大模型服务第一,其大模型日调用量较去年同期增长 106 倍,达 12.7 万亿 tokens。
字节跳动通过火山引擎构建了从模型研发到产业落地的完整生态,推动 AI Agent 从技术概念迈向实际生产力工具,其在多模态推理、云原生架构及垂直领域解决方案的探索,或将重塑云服务市场的竞争格局,加速各行业智能化转型进程。