近期,上海交通大学、上海创智学院、复旦大学和 Generative AI Research Lab(GAIR)联合取得了重大科研突破 —— 为 AI 赋予 “视觉想象力”,使其能像人类一般,借助脑内生成画面辅助思考。

中国团队赋 AI 视觉想象力,开启多模态推理新纪元
在人类认知活动中,视觉思维占据核心地位,如生物化学家构建蛋白质 3D 结构、法医重建犯罪现场、建筑师勾勒建筑草图、篮球运动员规划战术等场景,都依赖于脑补画面进行推理判断。此前 AI 主要依靠文本推理或处理已有的图像信息,缺乏自主生成视觉图像以辅助复杂推理的能力,限制了其在诸多领域的表现。
此次研究团队提出 “Thinking with Generated Images”,助力大模型在推理过程中自发生成视觉中间步骤,实现跨模态推理。该技术突破关键在于 “原生多模态长思维过程” 框架,让模型在单次推理中生成文本词汇、视觉图像块等交错的多模态 token,模拟人类思考时文本与视觉想象切换的过程。在此基础上,衍生出两种原生多模态长思维链模式:视觉子目标分解,把复杂视觉任务拆分为小目标逐步生成图像;提出视觉假设并自我反思迭代,在生成图像后以文本反思分析,优化生成结果。
为实现这一能力,团队基于 Anole 这一具备原生交错生成能力和高效视觉表示机制的基础模型,通过精心设计的合成数据构建流程、引入视觉特征级别重建损失的两阶段训练策略,以及多条件设计的推理策略,使模型在视觉生成任务上表现出色。在 GenEval 和 DPGBench 两个基准测试中,相关模型相较于基线模型均有显著性能提升,验证了 “Thinking with Generated Images” 技术的有效性。
未来,该项技术有望在创造性设计、科学发现、战术规划等领域催生重大变革,如模型生成建筑草图、辅助生物学家验证药物结合路径、模拟篮球战术配合等,推动 AI 向多模态 AGI(通用人工智能)大步迈进,开启真正的多模态推理时代。