2025 年 5 月 21 日,科技界的目光聚焦在谷歌 I/O 开发者大会上。这场盛会不仅是一次技术的展示,更是谷歌在 AI 领域多年积累与创新的一次集中爆发。谷歌用一系列令人瞩目的发布,宣告其在 AI 应用层面的强势回归,向世界展示了它如何重新定义技术的边界,并引领我们迈向一个更加智能和互联的未来。
Gemini 大模型:AI 的新标杆
在本次大会上,Gemini 大模型无疑是绝对的主角。谷歌为 Gemini 系列带来了全面升级,推出了一系列创新功能,使其在性能和应用场景上都达到了新的高度。
-
Gemini 2.5 Pro :在学术基准测试、WebDev Arena 和 LMArena 排行榜上均占据领先地位,同时在辅助学习方面表现出色。其新增的原生音频输出功能,为用户带来了更自然的对话体验;先进的安全保障措施,确保了模型使用的可靠性;而 Project Mariner 的计算机使用功能,则进一步拓展了 Gemini 的应用场景。此外,Deep Think 作为一种实验性的增强型推理模式,能够显著提升 Gemini 2.5 Pro 在复杂数学和编码任务中的能力。
-
Gemini Diffusion :这是谷歌探索新语言模型方向的一个重要成果。与传统的大语言模型不同,Gemini Diffusion 采用扩散模型技术,通过逐步细化噪声的方式来生成输出。这种方法使得模型能够快速迭代解决方案,并在生成过程中进行错误纠正,尤其在编辑等任务中表现出色,包括在数学和代码环境中。据谷歌表示,Gemini Diffusion 的推理速度达到了每 12 秒 10095 token,是迄今为止最快模型的五倍,同时具有相当的编程性能。
谷歌对 Gemini 应用的未来也充满了期待。Demis Hassabis 提出了将 Gemini 打造成通用 AI 助手的愿景,它能够执行日常任务、处理日常管理,并提供新的建议,以提高工作效率和丰富生活体验。Project Astra 作为这一愿景的起点,已经在视频理解、屏幕共享和记忆功能等方面进行了初步探索,并不断将这些功能集成到 Gemini Live 中,同时进行了一系列创新升级,如更加自然的语音输出、改进的记忆功能和增加的计算机控制功能等。
编程工具升级:开发者的强大助力
对于开发者而言,本次大会也带来了一系列令人兴奋的编程工具升级,这些工具将极大地提升开发效率和质量。
-
Jules :谷歌正式宣布了编程智能体 Jules。作为一个异步、智能体式的编码助手,Jules 能够直接与用户的代码库集成。它可以将用户代码库克隆到安全的 Google Cloud 虚拟机中,深入了解项目的完整上下文,并执行编写测试、构建新功能、提供音频更新日志、修复错误、升级依赖项版本等任务。Jules 以异步方式运行,用户可以在 Jules 后台运行时专注于其他任务,完成后它会展示其计划、推理过程以及所做更改的差异。并且 Jules 默认为私有,谷歌承诺不会使用用户的私有代码进行训练,并且会在执行环境中隔离用户数据。目前,Jules 处于公测阶段,访问免费,但使用量会受到限制。
-
Gemini Code Assist :谷歌对 Gemini Code Assist 进行了新升级。个人版和 GitHub 版的 Gemini Code Assist 正式发布,开发者可以快速上手。Gemini 2.5 现已支持 Gemini Code Assist 的免费版和付费版,拥有更强大的编程性能,能够帮助开发者在创建视觉效果出色的 Web 应用以及代码转换和编辑等任务上表现出色。此外,谷歌还为 Gemini Code Assist 提供了更多自定义选项,包括更多自定义工作流程以适应不同项目需求的方式,更轻松地从上次中断的位置继续执行任务的功能,以及用于强制执行团队编码标准、样式指南和架构模式的新工具。Gemini Code Assist 标准版和企业版开发者已经可以使用 200 万 token 的上下文窗口,这能帮助开发者完成大规模的复杂任务,例如错误追踪、代码转换以及为新用户生成全面的入门指南。谷歌展示的使用统计数据显示,Gemini Code Assist 可将开发者完成常见开发任务的成功率提高 2.5 倍。
-
Stitch :谷歌推出了一款全新的 AI 驱动式 UI 工具 Stitch。它能基于自然语言描述或图像提示词,生成适用于桌面和移动设备的高质量 UI 设计及相应的前端代码。Stitch 让用户能够快速将创意变为现实,以对话方式迭代设计,调整主题,并轻松将自己的作品导出为 CSS/HTML 或 Figma 以继续创作。
-
Colab 和 Firebase Studio 功能升级 :Colab 即将具有一种全新的、完全智能体的体验。用户只需告诉 Colab 想要实现的目标,它就会在笔记本中执行操作,修复错误并转换代码,从而帮助用户更快地解决难题。Firebase Studio 也得到了功能升级,进一步提升了开发者的开发效率和便捷性。
视频与图像生成模型更新:创意的无限可能
谷歌在视频和图像生成领域也取得了重大突破,为创意人士带来了更多可能性。
-
Veo 3 :作为一个先进的视频生成模型,Veo 3 不仅提高了 Veo 2 的质量,而且首次可以生成带有音频的视频。它今天在 Gemini 应用程序和 Flow 中为 Ultra 在美国的服务,并适用于 Vertex AI 上的企业用户。
-
Veo 2 更新 :Veo 2 添加了先进 的参考视频功能,实现更佳的创意控制和一致性;相机控制功能可以帮助用户定义精确的相机运动,包括旋转、变焦等,以实现完美的拍摄;Utpainting 功能拓宽视频帧,使其更容易适应任何屏幕尺寸;对象添加和删除功能则让用户可以从视频中添加或删除对象。
-
Flow :这是一款专为创意人士打造的 AI 电影制作工具,整合了 Google DeepMind 最先进的模型:Veo、Imagen 和 Gemini。用户能够无缝创作电影级的片段、场景和故事,享受更精细的角色、场景和风格控制。
-
Imagen 4 :在精细细节方面拥有非凡的清晰度,例如复杂的织物、水滴和动物皮毛等,并且在照片级写实和抽象风格方面均表现出色。Imagen 4 可以创建各种宽高比的图像,分辨率高达 2k,更适合打印或演示。它在拼写和排版方面也得到了显著提升,让用户可以更轻松地创作自己的贺卡、海报甚至漫画。并且谷歌即将推出 Imagen 4 变体,其速度比 Imagen 3 快 10 倍。
大模型在多领域的深度应用
-
Google Beam + 语音翻译 :谷歌宣布 Starline 项目演变为全新的 3D 视频通信平台 Google Beam。该平台利用 AI 赋能新一代设备,通过六个摄像头组成的阵列结合 AI 技术,将标准的 2D 视频流转化为逼真的 3D 体验,让用户能够更自然、更直观地进行远程连接。此外,谷歌还在探索使用 Google Beam 进行语音翻译,该功能已于今日在 Google Meet 上线,最初支持英语和西班牙语,未来几周将支持更多语言,为用户提供更好的实时翻译对话体验。
-
搜索升级 :谷歌搜索中的 AI 概览功能进行了升级,现已覆盖 200 多个国家和地区,支持 40 多种语言,并新增了对阿拉伯语、汉语、马来语、乌尔都语等语言的支持。AI 概览功能能够改进用户的搜索体验,用新类型的问题快速查找信息并浏览网络上的相关网站。从本周开始,谷歌将在美国的 AI Overviews 中引入 Gemini 2.5 的一个定制版本,以便搜索能够解决更棘手的问题。同时,谷歌正式在美国推出 AI 模式,其拥有更先进的推理能力和多模态分析能力,并能够通过后续问题和有用的网络链接进行更深入的探索。AI 模式的底层采用了查询扇出技术,可将问题分解为子主题,并同时发出多个查询,从而更深入地挖掘网络内容,帮助用户发现更多网络资源,并找到与用户查询高度相关的内容。此外,谷歌还为搜索引入了深度搜索和实时功能,并将 Project Mariner 的智能体功能引入 AI 模式,为用户节省购票等任务的时间,还引入了个人上下文与定制图表等能力。
-
全新的 AI 购物模式 :谷歌推出了全新的 AI 购物体验,将 Gemini 功能与 Shopping Graph 完美结合。Shopping Graph 拥有超过 500 亿条商品信息,涵盖全球零售商,每条信息都包含评论、价格、颜色选择和库存情况等详细信息,并且信息准确及时。用户还能进行虚拟试穿,只需上传一张照片,就可以虚拟试穿数十亿种服装,该功能由一个全新的时尚定制图像生成模型支持,能够理解人体结构和服装的细微差别。
除了上述这些重点内容外,谷歌在本次 I/O 大会上还有诸多亮点发布,如 Gemma 3n 的预览版本、AI 辅助科研、AI 内容鉴定、NotebookLM、云计算、办公辅助、增强现实等多个领域的动态,以及每月 249.99 美元的 Google AI Ultra 订阅套餐等。
谷歌一直以来都是 AI 研究的先驱,早在 Transformer 架构和 AlphaGo 时代就奠定了技术基础。而此次 2025 年 I/O 大会,谷歌通过一系列重磅发布,展现了其在 AI 应用领域的全面爆发。从 AI Mode 彻底重塑搜索体验,到 Project Astra 引领多模态交互,再到 Gemini 2.5 的深度推理能力和 Project Mariner 的智能体,谷歌不仅追赶上了 AI 应用的浪潮,更在多个关键领域实现了超越。这场大会是谷歌向未来发出的宣言,在 AI 驱动的新时代,谷歌将继续引领潮流,塑造一个更加智能和互联的世界。