OpenAI持续12天发布会过半，谷歌深夜截胡式炸场：Gemini 2.0来了

OpenAI持续12天发布会过半，谷歌深夜截胡式炸场：Gemini 2.0来了

2024-12-25 14:27

　　那边OpenAI持续12天的直播连续剧还没完结，隔壁谷歌已经坐不住了开始放大招，火药味溢出屏幕。

　　就在北京时间12月11日深夜23:30，谷歌正式发布Gemini 2.0，标志着其向能够独立完成复杂任务的AI系统迈出了雄心勃勃的一步。并且谷歌基于这次版本更新，一次性发布多个AI Agent（智能体）成果，包括：

　　用多模态理解现实世界的智能体「Project Astra」这次升级了技能；发布Project Mariner，一个建立在 Gemini 2.0之上的新智能体，可以帮忙浏览网页，并处理复杂任务；发布Jules，一个由 Gemini 2.0驱动的新型编码智能体，主要面向开发者；以及发布一些用于游戏、机器人、深度研究场景的智能体，用实力诠释什么叫做“要啥有啥”。除了智能体系列霸屏之外，谷歌此次还官宣了第六代TPU——Trillium正式面向客户开放。

　　Google 和 Alphabet 首席执行官 Sundar Pichai（桑达尔·皮查伊）在寄语里直言：“Gemini 2.0是谷歌迄今为止最强大的模型，它能够构建新的AI智能体，从而让我们离构建通用助手的愿景更进一步。”桑达尔·皮查伊第一时间发了推文，向开发者安利这款模型。

　　Google 和 Alphabet 首席执行官 Sundar Pichai（桑达尔·皮查伊）的社交平台截图

　　不难看出，这次谷歌的强势出手，都是围绕一个主轴——AI智能体（Agent）。其实不止谷歌，很多AI巨头，尤其是以 OpenAI、Anthropic 和谷歌为首，一直是AI智能体的布道者。桑达尔·皮查伊在这次发布的致辞中，将AI智能体描述为“能够更多地了解你周围的世界、提前思考多个步骤、并在你的监督下代表你采取行动的模型”。

　　在这次发布前夕的媒体沟通会上，Google DeepMind Gemini产品管理总监Tulsee Doshi指出：“Google DeepMind研究AI智能体能力已经有很长一段时间了，我认为这个特定词在过去几个月已经有了新的含义。”以Project Astra为例，它的核心原则是拥有眼睛、耳朵和声音的智能体，可以识别并理解物理世界，并与人交互，帮人做事。

　　谈及背后逻辑，Google DeepMind Project Astra项目产品经理徐Bibo Xu在采访中指出，在技术发展方向上，谷歌正在平衡两个关键领域：一方面继续扩大模型规模，提升基础性能；另一方面，加强后期训练优化和推理技术的改进，尤其关注多模态能力的提升，希望让AI能更好地理解和处理各类信息。

　　Google DeepMind团队透露，明年初将推出Gemini 2.0系列模型的更多版本，大家很快就能见到Gemini更强大的表现。

　　Gemini 2.0：为Agent而生

　　去年年底，Gemini 1.0问世。Gemini 1.0和1.5是谷歌第一个基于多模态的模型，它支持多模态和长上下文，可以理解文本、视频、图像、音频和代码中的信息，并处理更多信息。

　　一年后的今天，谷歌发布 Gemini 2.0 系列模型中的第一个版本：Gemini 2.0 Flash 体验版。在MMLU-Pro基准测试中，2.0 Flash的速度是1.5 Pro的两倍。

　　在功能方面，2.0 Flash 除了能够支持图片、视频和音频等多模态输入，它还可以支持多模态输出，例如可以直接生成图像与文本混合的内容，以及原生生成可控的多语言文本转语音(TTS)音频。而且，它还可以原生调用 Google Search、代码执行以及第三方用户定义的函数等工具。

　　谷歌特别强调了对开发者的赋能。官网资料里提到，Gemini 2.0 Flash 现在可以通过谷歌的两款生成式AI产品—— Google AI Studio 和 Vertex AI 中的 Gemini API 获取，所有开发者均可使用「多模态输入」和「文本输出」，可使用原生文本转语音和图像的生成功能。该产品将于2025年1月份上市，到时候Gemini 2.0将迎来更多版本型号。

　　为了帮助开发者构建动态和交互式应用程序，谷歌还发布了最新Multimodal Live API，它具有实时音频、视频流输入、以及使用多个组合工具的能力。

　　谷歌强调，在接下来的几个月里，将把Gemini 2.0 引入Android Studio、Chrome DevTools、Firebase等平台。开发人员可以在Gemini Code Assist中注册使用Gemini 2.0 Flash，以便在流行的ide（如Visual Studio Code、IntelliJ、PyCharm等）中增强编码辅助功能。

　　而对于更广泛的个人用户，全球的 Gemini 用户可以通过在电脑端和移动端网页的模型下拉菜单中进行选择，来体验2.0 Flash 体验版，并且该版本将很快在 Gemini 移动应用中推出。2025年初，谷歌还会将 Gemini 2.0 扩展到更多产品中。

　　比如，Gemini 2.0 的高级推理能力将融入谷歌搜索中的AI概览（AI Overviews），以攻克更复杂的主题和多步骤问题，包括高等数学方程、多模态查询和编码。该功能本周已经进行了小范围测试，明年初将在更大范围推出。

　　Agent！Agent！还是Agent！

　　这次发布或许最重要的是，谷歌推出了一批基于 Gemini 2.0 架构的原型 AI智能体，展示了在该领域的野心。其中包括：

　　1、Project Astra大幅升级，用于探索未来通用AI助手能力的研究原型。

　　Project Astra的首次亮相是在今年5月份的Google I/O 大会上，当时科技行者在现场目睹了那次发布，在演示视频中，Project Astra通过手机摄像头能看见、能识别、能理解物理世界的周围环境，还能解答用户提问并提供即时反馈。当时在现场收获了一阵掌声。

　　而现在，基于 Gemini 2.0 版本的Project Astra，进行了一系列升级，谷歌对此又发了一支演示视频。

　　看起来，进化后的Project Astra与人交互更自然了，这次的更新具体而言覆盖了方方面面：

　　首先，它实现了更流畅的对话。演示视频中可见，Project Astra可以在多种语言之间进行自然对话，比如法语和泰米尔语，能理解不同口音和生僻单词。

　　其次，它能调用新工具。看起来是通过文本、语音、图像和视频回答问题并执行任务，并在需要时调用现有的谷歌应用，如搜索、地图和摄像头。“它融合了我们这个时代一些最强大的信息检索系统。”Bibo Xu在这次媒体沟通会上说道。

　　第三，它有了更强的记忆力。演示视频中，Project Astra 能够记住门禁密码，并且过了一段时间被问到时，还是能准确回忆起门禁密码。在整个测试过程中，即使经过多个不同场景的对话，Project Astra仍能准确调取之前存储的信息。

　　关于Project Astra的记忆能力，Bibo Xu在媒体沟通会上介绍，Project Astra 拥有两种记忆能力，一个是「图形记忆能力」，最多可以记住10分钟内看到的每一个画面像素；另一个是「对话记忆能力」，最多可以存储60段历史对话，并在需要时调用这些内容。

　　据悉，谷歌正在将Project Astra的功能植入自家产品中，比如Gemini app、智能眼镜等。而且即将开放给一批“受信任的测试人员”，测试 Project Astra 在原型智能眼镜上的表现。

　　2、除了Project Astra的升级之外，谷歌此次还发布一个新的智能体Project Mariner。

　　Project Mariner能够理解和推理浏览器页面中的信息（包括像素、文本、代码、图像和表单等），然后通过Chrome 扩展程序使用这些信息，为用户完成复杂任务。

　　谷歌指出，在 WebVoyager 基准测试（该测试针对智能体在端到端的真实世界网页任务的性能）中，Project Mariner 作为单个智能体设置实现了 83.5% 的工作效率，达到了最先进的水平。

　　从安全性的角度考虑，谷歌在博客中强调：“正在积极研究新型风险和应对措施，始终保持有人类的参与和监督。例如，Project Mariner 只能在浏览器上的活动标签页中键入、滚动或单击，而它在采取某些敏感操作（如购买某物）之前，会要求用户进行最终确认。”

　　3、面向开发者的编码智能体Jules。

　　谷歌这次发布的另一个新智能体，是专门面向开发者的编码智能体Jules，它可以直接集成到 GitHub 工作流程中来协助开发者工作。

　　对于开发者来说，比写代码更头疼的可能是找bug，而现在，可以将Python和Javascript编码任务交给Jules，Jules可以处理bug修复和其他耗时的任务，它可以有效修改多个文件，甚至拉取请求来直接将修复返回到GitHub，那么开发者就可以专注于其他任务。

　　4、更多“智能体们”，用于游戏、机器人、研究等更多领域。

　　除了上述“叫得上名字的”智能体之外，谷歌这次还演示了一些内置在Gemini 2.0的“智能体们”，用于游戏、机器人、研究等更多领域。

　　“Google DeepMind 一直以来都在利用游戏帮助AI模型更好地遵守规则、进行规划、并运用逻辑思维。”谷歌在官网资料里指出。比如在上周，谷歌推出了Genie 2，一个可以从单个图像创建无限多种可玩 3D 世界的 AI 模型。

　　而这次，谷歌基于Gemini 2.0 构建了一些智能体，专门用于游戏场景。演示视频中可见，该智能体可以根据屏幕上的实时画面，分析游戏情况，并提供下一步操作建议；此外，当被用户问到游戏知识时，它还能调用搜索，检索到相关知识并给出建议。

　　为了进一步探索智能体在游戏领域的应用，谷歌正在与Supercell等游戏开发团队合作，通过测试它们在《部落冲突》、《海岛奇兵》等各种游戏中的表现，来评估智能体们理解游戏规则、应对挑战的能力。

　　除了探索虚拟世界的智能体能力外，谷歌还将 Gemini 2.0 的空间推理能力应用于机器人领域，尝试让智能体在现实世界中提供帮助。不过谷歌方面指出，这项研究仍处于初期阶段。

　　此外，谷歌在 Gemini Advanced 中还引入了一项名为“深度研究（Deep Research）”的新代理功能，这是一个研究助手，可以深入研究复杂主题并为创建包含相关来源链接的报告。该功能自今日起对 Gemini Advanced 用户开放。

　　“思维链是我们思考如何构建模型的重要组成部分。”Tulsee Doshi在媒体采访中指出，比如AlphaCode和AlphaProof，这些都是能够展示深度思维和推理时间的真正强大模型，它们能够在代码和数学方面提升性能。

　　值得一提的是，谷歌这次依然特别强调了安全与责任的重要性，为此制定了“负责任的AI”原则，在数据处理、模型训练等各个环节都实施了严格的安全把关。

　　谷歌在对外发布资料里强调了秉持“负责任的AI”原则

　　Gemini 2.0背后的功臣：第六代Trillium

　　如此密集的AI智能体们，以及承载这些智能体的AI大模型们，给硬件基础设施带来了特殊挑战。因为这些模型需要巨大的计算能力和专门的硬件来有效地处理训练、微调和推理。

　　十多年前，谷歌开始开发定制的人工智能加速器——张量处理单元（TPU），它集成了软硬件、机器学习框架、以及大模型，以满足人工智能工作负载不断增长的需求，为多模态人工智能铺平道路。

　　桑达尔·皮查伊在寄语里把Gemini 2.0的进展一部分归功于TPU。他写道：“Gemini 2.0 的进展得益于我们所特有的长达 10 年全栈式 AI 创新研究的投入，它基于我们定制的硬件第六代 TPU Trillium 构建而成。TPU 为 Gemini 2.0 的训练和推理提供 100% 算力支持。”谷歌第六代TPU Trillium发布于今年5月份的Google I/O大会上。

　　而现在，谷歌宣布第六代 TPU Trillium正式面向客户开放。

　　相比于上一代，第六代Trillium训练成绩提高4倍以上，推理吞吐量提高3倍，能源效率提高67%，每个芯片的峰值计算性能提高了4.7倍，HBM （High Bandwidth Memory）容量翻倍，ICI （Interchip Interconnect）带宽增加一倍。

　　谷歌Cloud计算与人工智能基础设施副总裁Mark Lohmeyer在官方资料里指出，这些增强功能使Trillium能够在广泛的人工智能工作负载中脱颖而出，包括：扩展AI训练工作量、培训法学硕士包括密集和混合专家（MoE）模型、推理性能和集合调度、Embedding-intensive模型、提供培训和推理性价比等。

　　谷歌第六代 TPU Trillium

　　结合这次整场发布可以看出，谷歌正在努力平衡AI的加度和深度思考能力，希望找到一个既能快速响应、又能进行深度推理的平衡点，目标是将这些先进技术以最实用的方式带给用户和产业。这个过程虽然充满挑战，但也充满希望。