去年Google IO前OpenAI狙击,今年Google掏出最强AI全家桶

在去年的 Google I/O 开幕式前夕,OpenAI 突然发布了 GPT-4o,对该领域发起了精准的挑战。
今年攻守之势异也。
近期,OpenAI 公布了 GPT-5 的全新特性,即实现一站式整合各类产品。紧接着,Google 在 I/O 大会上迅速跟进,展示了他们迄今为止最为强大的AI产品系列。
从推出 Gemini 2.5 Pro 和 Flash 这两款产品,再到推出 AI 模式,以及 Veo 3 和 Imagen 4 等新品,还有专为开发者与创作者设计的 AI 套件,Google 几乎将整个从模型到产品的开发路径,都浓缩在了单场发布会上。

更确切地讲,目前最为热门的AI应用领域,Google已将其巧妙地嵌入到了产品接口之中,这让人深刻认识到,它依然是全球范围内拥有卓越工程实力和强大生态整合能力的AI巨头之一。
难怪众多网友戏谑,经过长达近两个小时的发布会,紧接着,又将有众多初创企业不幸沦为 Google 的牺牲品。
不过,观察发布会可以发现,部分功能还处于“预告片”及小规模测试的初期阶段,与实际投入使用可能还有一段较长的路要走。

帮我一次性完成购票、选座和填写表格,Google的最新人工智能搜索功能让用户都疯狂了。
AI 正在重写搜索这件事的底层逻辑。
在去年的I/O年度大会上,谷歌公司发布了AI概览这一新功能,截至目前,该功能已吸引了超过15亿名月度活跃用户。
生成式人工智能正在逐步改变人们的搜索习惯,然而,这种改变也带来了一种新的现象,那就是我们不再仅仅满足于在搜索栏中输入简单的问题,而是开始提出更加复杂、更加冗长、并且包含多种模态的查询。
今日,谷歌加大了对搜索与人工智能结合力度的投入,正式发布了一款全新的全流程人工智能搜索服务——AI模式。
正如 Google 首席执行官桑达尔·皮查伊所阐述,这已成为 Google 历史上最为强大的 AI 搜索形式;它不仅拥有更为卓越的推理技巧和多模态信息处理能力,而且能够支持用户通过上下文进行深入提问,并通过网页链接进行更广泛的探索。

若用户遭遇需深入分析的搜索难题,AI模式便会激活“深度搜索”功能,对众多信息进行逻辑推理,并在短短数分钟内编制出一份具备专家水准的引用文档,从而助你高效节省宝贵的研究时长。
与此同时,Google 将 Project Astra 的多模态功能融入搜索系统,从而显著增强了搜索的即时互动体验。借助 Search Live 功能,用户仅需激活摄像头,便能在画面中实时提出问题并即时获得回应。

今年标志着 Agent 的诞生之年,同时,Google 还特意推出了 Project Mariner Agent 功能,这一功能旨在助力用户提升工作效率。
只需提出“请为我搜寻本周六下层座位优惠门票两份”的简单要求,AI Mode即可自动穿梭于各大票务平台,对票价与库存进行实时对比,并自动完成表格填写等繁琐步骤,从而显著提高办事效率。
依托于 Gemini 模型及 Google 购物图谱的强大功能,Google AI Mode 可助你精准筛选商品并激发创意。若想预览服饰上身效果,只需上传个人照片,即可轻松完成虚拟试衣体验。
除此之外,AI模式还拥有卓越的个性化功能,能够依据用户的上下文喜好提供专属的建议,并且能够制作图表以及进行可视化展示,特别是在体育和金融领域的搜索应用中,其表现尤为突出。
该功能今日起已在美国全面上线,未来将推广至更多地区。
具备编程技能且能节省Token,Gemini 2.5版成功赢得了“学霸”这一称号。
在模型性能领域,Google近期推出了Gemini 2.5 Pro的输入输出版本,该版本在众多排行榜上占据了领先地位。
Gemini 2.5 Pro新增了“Deep Think”这一推理强化功能。在得出答案之前,该功能能够综合考量众多假设,进而对问题所处的背景有更深入的认识。

2.5 Pro Deep Think 在 2025 年的美国数学奥林匹克竞赛(USAMO)和 LiveCodeBench 编程基准测试中均取得了优异的成绩,名列前茅;同时,在 MMMU(多模态推理测试)中,该系统也取得了高达 84.0% 的得分率。
不过,谷歌公司透露,他们计划投入更多精力对尖端安全进行细致评估,并积极听取安全领域专家的深入见解。在此过程中,作为启动阶段的举措,Deep Think 功能将借助 Gemini API 对有限数量的测试用户开放。
同样获得提升的,还有这款注重效率的 Gemini 2.5 Flash。
新版2.5 Flash在推理、多模态处理、代码执行以及长上下文理解等核心性能方面进行了优化,并且提升了效率,评估过程中使用的tokens数量下降了20%到30%。

Flash功能现已在Gemini应用中向公众全面开放,同时,它也将在六月初通过Google AI Studio平台对开发者群体开放,并计划在同期向企业客户推出Vertex AI服务。
在开发者体验方面,2.5 Pro与2.5 Flash两款产品将搭载Gemini API和Vertex AI平台,新增“思维摘要”这一功能,该功能能够将模型的推理过程以标题、要点内容以及使用的工具等形式进行系统化的展示。
开发者同样能够获益,因为Google已经宣布,在Gemini API与SDK中正式采纳了MCP工具,这使得开发者能够便捷地融入更多的开源工具与插件生态系统。
音乐、电影、图像全套上线,Google 把 AI 玩出了花
在此次发布会上,Google 展示了全新的图像与视频处理模型,分别是 Veo 3 和 Imagen 4。
Veo 3 与传统视频生成方式迥异,它是一款集成了音频处理功能的视频生成模型。该模型能够在城市街景中逼真地模拟交通流动、鸟鸣声,甚至还能实现角色之间的对话。这些功能显著增强了观看体验的沉浸感。
该模型不仅能在文本和图像提示的基础上制作视频,而且能够精确地同步物理环境和口型,从而显著增强了视频制作的真实度。
Veo 3 现已向 Ultra 订阅用户在 Gemini 应用及 Flow 平台上提供使用权限,同时,它也已在 Vertex AI 平台上开始为企业用户提供服务支持。

上文所提及的Flow,是谷歌专门为创作者开发的一款人工智能电影制作软件。
用户仅需以日常语言描绘电影中的画面,便能够操控角色、场景、物品以及艺术风格,系统将自动构建故事段落。Flow 已面向美国的 Gemini Pro 和 Ultra 用户群体推出,其全球推广工作亦正在稳步进行。
在图像生成领域,新一代的 Imagen 4 在准确度和运行速度上均有显著提升,它能够逼真地描绘出织物纹理、水珠形态以及动物毛发的细节,并且还能够创作出具有抽象美感的风格作品。
它兼容2000像素的分辨率以及多种比例的显示,同时在版式设计和文字校对上进行了大幅改进,非常适合用于制作卡片、宣传海报乃至漫画作品。
今日,Imagen 4 已在 Gemini、Whisk、Vertex AI 以及 Workspace 的 Slides、Vids 和 Docs 中正式上线。据消息透露,该产品未来还将推出一个速度提升十倍的新版本。

在音乐创作领域,谷歌提升了基于Lyria 2技术的Music AI Sandbox的接入权限,同时推出了Lyria RealTime这一交互式音乐生成模型。目前,该模型已通过API和AI Studio的方式向开发者全面开放。
鉴于 Veo 3、Imagen 4 以及 Lyria 2 所创造的内容将持续保留 SynthID 水印,Google 推出了全新的 SynthID 检测器。
用户只需上传文件,系统便能检测文件中是否存在SynthID水印,这一水印用于防伪以及追踪人工智能内容的来源。
Google 要造「世界模型」,连任务都能帮你做了?
谷歌致力于将Gemini塑造为一个全面的“世界模型”,该模型不仅能够进行规划和理解,还能模拟现实世界的诸多方面。
Google DeepMind的执行长Demis Hassabis强调,该理念构成了Project Astra项目至关重要的基础之一。

在过去的一年中,Google 已经将视频解析、屏幕互动、记忆技术等功能陆续融入 Gemini Live。目前,Gemini 推出的新型语音输出功能融入了原生音频,使得表达更加流畅自然;同时,其记忆功能以及与计算机使用的关联能力也得到了显著提升。
除此之外,Google 正在研究如何运用Agent的技能,以协助用户更高效地完成多项任务。
Project Mariner 是众多项目中的一个,它具备同时执行多达十个任务的能力,诸如信息检索、订单处理、购物以及市场调研等。目前,该系统已对美国 Ultra 用户开放使用,并且即将融入 Gemini API 以及其他关键产品之中。
AI 新功能扎堆发布,会诞生真正的杀手锏吗
昨日,NotebookLM 官方公布,该应用自上线24小时起,便在App Store上跃升至生产力应用排名第二位,同时在整体应用排名中位居第九。
NotebookLM 是 Google 在人工智能笔记领域进行的深入尝试,它具备音频概览和思维导图等实用功能。
音频概览功能已涵盖超过80种语言,本周,Google还宣布将增强其定制化程度,用户现在可以按照个人需求挑选摘要的长度,无论是迅速浏览还是细致阅读,皆可轻松应对。
这项功能首先将在英语中推出,随后将扩展到更多语言。
与此同时,谷歌正积极响应用户对视觉呈现的期待,计划在NotebookLM中嵌入视频概览功能。用户只需轻点一下,便可以将笔记内容转换成教育视频,以更加直观的形式进行信息传递。

在人工智能编程这一领域,Google展示了Jules的最新研究成果。
这款最初在 Google Labs 展示的自动编码助手,它具备理解代码的能力,并能独立完成编写测试、构建功能以及修复 Bug 等开发工作,现正步入公开的 Beta 测试阶段。

除此之外,Google 还推出了全新的订阅服务,名为 Google AI Ultra。
本方案为专业人士提供对谷歌最先进模型及高端特性的无限使用权限,特别适合电影制作者、软件开发者、创意人士等职业人士,每月费用为249.99美元。
目前,该计划已经在美国上线,并将很快扩展至其他国家。

实际上,当前AI领域并不缺乏模型和功能,但真正匮乏的,是那种能够融入日常生活的、真正深入广大用户心智的「杀手级产品」。
Google 当然明白这个道理,也正全力以赴寻找答案。
因此,在此次发布会中,Google 几乎无所不做,所涉领域亦十分广泛:涵盖了文本、图像、视频、音乐等多个方面;同时,在搜索、智能代理、创作工具等领域,均有所提及,可谓一应俱全。
牌局已尽,技艺亦已展现,此刻,Google 唯需一招精准命中用户核心需求的策略。
相关文章
猜你喜欢
-
2026年AI搜索下,5家头部GEO服务商实力测评与选择指南
于2026年,当AI搜索对流量格局加以重塑之际,去抢占生成式引擎也就是AI Search的“首位推荐”,这已然成了企业决策者的核心战略方面的动作。针对“GEO优化公...

