分享好友 最新动态首页 最新动态分类 切换频道
OpenAI持续12天发布会过半,谷歌深夜截胡式炸场:Gemini 2.0来了,一切为了Agent!
2024-12-29 09:55

作者|周雅

OpenAI持续12天发布会过半,谷歌深夜截胡式炸场:Gemini 2.0来了,一切为了Agent!

这边OpenAI持续12天的直播连续剧还没完结,那边谷歌已经坐不住了开始放大招,火药味溢出屏幕。

就在北京时间12月11日深夜23:30,谷歌正式发布Gemini 2.0,标志着其向能够独立完成复杂任务的AI系统迈出了雄心勃勃的一步。并且谷歌基于这次版本更新,一次性发布多个AI Agent(智能体)成果,包括:

用多模态理解现实世界的智能体「Project Astra」这次升级了技能;发布Project Mariner,一个建立在 Gemini 2.0之上的新智能体,可以帮忙浏览网页,并处理复杂任务;发布Jules,一个由 Gemini 2.0驱动的新型编码智能体,主要面向开发者;以及发布一些用于游戏、机器人、深度研究场景的智能体,用实力诠释什么叫做“要啥有啥”。除了智能体系列霸屏之外,谷歌此次还官宣了第六代TPU——Trillium正式面向客户开放。

Google 和 Alphabet 首席执行官 Sundar Pichai(桑达尔·皮查伊)在寄语里直言:“Gemini 2.0是谷歌迄今为止最强大的模型,它能够构建新的AI智能体,从而让我们离构建通用助手的愿景更进一步。”桑达尔·皮查伊第一时间发了推文,向开发者安利这款模型。

Google 和 Alphabet 首席执行官 Sundar Pichai(桑达尔·皮查伊)的社交平台截图

不难看出,这次谷歌的强势出手,都是围绕一个主轴——AI智能体(Agent)。其实不止谷歌,很多AI巨头,尤其是以 OpenAI、Anthropic 和谷歌为首,一直是AI智能体的布道者。桑达尔·皮查伊在这次发布的致辞中,将AI智能体描述为“能够更多地了解你周围的世界、提前思考多个步骤、并在你的监督下代表你采取行动的模型”。

在这次发布前夕的媒体沟通会上,Google DeepMind Gemini产品管理总监Tulsee Doshi指出:“Google DeepMind研究AI智能体能力已经有很长一段时间了,我认为这个特定词在过去几个月已经有了新的含义。”以Project Astra为例,它的核心原则是拥有眼睛、耳朵和声音的智能体,可以识别并理解物理世界,并与人交互,帮人做事。

谈及背后逻辑,Google DeepMind Project Astra项目产品经理徐Bibo Xu在采访中指出,在技术发展方向上,谷歌正在平衡两个关键领域:一方面继续扩大模型规模,提升基础性能;另一方面,加强后期训练优化和推理技术的改进,尤其关注多模态能力的提升,希望让AI能更好地理解和处理各类信息。

Google DeepMind团队透露,明年初将推出Gemini 2.0系列模型的更多版本,大家很快就能见识到Gemini更强大的表现。

Gemini 2.0:为Agent而生

去年年底,Gemini 1.0问世。Gemini 1.0和1.5是谷歌第一个基于多模态的模型,它支持多模态和长上下文,可以理解文本、视频、图像、音频和代码中的信息,并处理更多信息。

一年后的今天,谷歌发布 Gemini 2.0 系列模型中的第一个版本:Gemini 2.0 Flash 体验版。在MMLU-Pro基准测试中,2.0 Flash的速度是1.5 Pro的两倍。

在功能方面,2.0 Flash 除了能够支持图片、视频和音频等多模态输入,它还可以支持多模态输出,例如可以直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音(TTS)音频。而且,它还可以原生调用 Google Search、代码执行以及第三方用户定义的函数等工具。

谷歌特别强调了对开发者的赋能。官网资料里提到,Gemini 2.0 Flash 现在可以通过谷歌的两款生成式AI产品—— Google AI Studio 和 Vertex AI 中的 Gemini API 获取,所有开发者均可使用「多模态输入」和「文本输出」,可使用原生文本转语音和图像的生成功能。该产品将于2025年1月份上市,到时候Gemini 2.0将迎来更多版本型号。

为了帮助开发者构建动态和交互式应用程序,谷歌还发布了最新 Multimodal Live API,它具有实时音频、视频流输入、以及使用多个组合工具的能力。

谷歌强调,在接下来的几个月里,将把Gemini 2.0 引入Android Studio、Chrome DevTools、Firebase等平台。开发人员可以在Gemini Code Assist中注册使用Gemini 2.0 Flash,以便在流行的ide(如Visual Studio Code、IntelliJ、PyCharm等)中增强编码辅助功能。

而对于更广泛的个人用户,全球的 Gemini 用户可以通过在电脑端和移动端网页的模型下拉菜单中进行选择,来体验2.0 Flash 体验版,并且该版本将很快在 Gemini 移动应用中推出。2025年初,谷歌还会将 Gemini 2.0 扩展到更多产品中。

比如,Gemini 2.0 的高级推理能力将融入谷歌搜索中的AI概览(AI Overviews),以攻克更复杂的主题和多步骤问题,包括高等数学方程、多模态查询和编码。该功能本周已经进行了小范围测试,明年初将在更大范围推出。

Agent!Agent!还是Agent!

这次发布或许最重要的是,谷歌推出了一批基于 Gemini 2.0 架构的原型 AI智能体,展示了在该领域的野心。其中包括:

1、Project Astra大幅升级,用于探索未来通用AI助手能力的研究原型。

Project Astra的首次亮相是在今年5月份的Google I/O 大会上,当时科技行者在现场目睹了那次发布,在演示视频中,Project Astra通过手机摄像头能看见、能识别、能理解物理世界的周围环境,还能解答用户提问并提供即时反馈。当时在现场收获了一阵掌声。

而现在,基于 Gemini 2.0 版本的Project Astra,进行了一系列升级,谷歌对此又发了一支演示视频。

看起来,进化后的Project Astra与人交互更自然了,这次的更新具体而言覆盖了方方面面:

首先,它实现了更流畅的对话。演示视频中可见,Project Astra可以在多种语言之间进行自然对话,比如法语和泰米尔语,能理解不同口音和生僻单词。

其次,它能调用新工具。看起来是通过文本、语音、图像和视频回答问题并执行任务,并在需要时调用现有的谷歌应用,如搜索、地图和摄像头。“它融合了我们这个时代一些最强大的信息检索系统。”Bibo Xu在这次媒体沟通会上说道。

第三,它有了更强的记忆力。演示视频中,Project Astra 能够记住门禁密码,并且过了一段时间被问到时,还是能准确回忆起门禁密码。在整个测试过程中,即使经过多个不同场景的对话,Project Astra仍能准确调取之前存储的信息。

关于Project Astra的记忆能力,Bibo Xu在媒体沟通会上介绍,Project Astra 拥有两种记忆能力,一个是「图形记忆能力」,最多可以记住10分钟内看到的每一个画面像素;另一个是「对话记忆能力」,最多可以存储60段历史对话,并在需要时调用这些内容。

据悉,谷歌正在将Project Astra的功能植入自家产品中,比如Gemini app、智能眼镜等。而且即将开放给一批“受信任的测试人员”,测试 Project Astra 在原型智能眼镜上的表现。

2、除了Project Astra的升级之外,谷歌此次还发布一个新的智能体Project Mariner。

Project Mariner能够理解和推理浏览器页面中的信息(包括像素、文本、代码、图像和表单等),然后通过Chrome 扩展程序使用这些信息,为用户完成复杂任务。

谷歌指出,在 WebVoyager 基准测试(该测试针对智能体在端到端的真实世界网页任务的性能)中,Project Mariner 作为单个智能体设置实现了 83.5% 的工作效率,达到了最先进的水平。


从安全性的角度考虑,谷歌在博客中强调:“正在积极研究新型风险和应对措施,始终保持有人类的参与和监督。例如,Project Mariner 只能在浏览器上的活动标签页中键入、滚动或单击,而它在采取某些敏感操作(如购买某物)之前,会要求用户进行最终确认。”

3、面向开发者的编码智能体Jules。

谷歌这次发布的另一个新智能体,是专门面向开发者的编码智能体Jules,它可以直接集成到 GitHub 工作流程中来协助开发者工作。

对于开发者来说,比写代码更头疼的可能是找bug,而现在,可以将Python和Javascript编码任务交给Jules,Jules可以处理bug修复和其他耗时的任务,它可以有效修改多个文件,甚至拉取请求来直接将修复返回到GitHub,那么开发者就可以专注于其他任务。

4、更多“智能体们”,用于游戏、机器人、研究等更多领域。

除了上述“叫得上名字的”智能体之外,谷歌这次还演示了一些内置在Gemini 2.0的“智能体们”,用于游戏、机器人、研究等更多领域。

“Google DeepMind 一直以来都在利用游戏帮助AI模型更好地遵守规则、进行规划、并运用逻辑思维。”谷歌在官网资料里指出。比如在上周,谷歌推出了Genie 2,一个可以从单个图像创建无限多种可玩 3D 世界的 AI 模型。

而这次,谷歌基于Gemini 2.0 构建了一些智能体,专门用于游戏场景。演示视频中可见,该智能体可以根据屏幕上的实时画面,分析游戏情况,并提供下一步操作建议;此外,当被用户问到游戏知识时,它还能调用搜索,检索到相关知识并给出建议。

为了进一步探索智能体在游戏领域的应用,谷歌正在与Supercell等游戏开发团队合作,通过测试它们在《部落冲突》、《海岛奇兵》等各种游戏中的表现,来评估智能体们理解游戏规则、应对挑战的能力。

除了探索虚拟世界的智能体能力外,谷歌还将 Gemini 2.0 的空间推理能力应用于机器人领域,尝试让智能体在现实世界中提供帮助。不过谷歌方面指出,这项研究仍处于初期阶段。

此外,谷歌在 Gemini Advanced 中还引入了一项名为“深度研究(Deep Research)”的新代理功能,这是一个研究助手,可以深入研究复杂主题并为创建包含相关来源链接的报告。该功能自今日起对 Gemini Advanced 用户开放。

“思维链是我们思考如何构建模型的重要组成部分。”Tulsee Doshi在媒体采访中指出,比如AlphaCode和AlphaProof,这些都是能够展示深度思维和推理时间的真正强大模型,它们能够在代码和数学方面提升性能。

值得一提的是,谷歌这次依然特别强调了安全与责任的重要性,为此制定了“负责任的AI”原则,在数据处理、模型训练等各个环节都实施了严格的安全把关。

谷歌在对外发布资料里强调了秉持“负责任的AI”原则

Gemini 2.0背后的功臣:第六代Trillium

如此密集的AI智能体们,以及承载这些智能体的AI大模型们,给硬件基础设施带来了特殊挑战。因为这些模型需要巨大的计算能力和专门的硬件来有效地处理训练、微调和推理。

十多年前,谷歌开始开发定制的人工智能加速器——张量处理单元(TPU),它集成了软硬件、机器学习框架、以及大模型,以满足人工智能工作负载不断增长的需求,为多模态人工智能铺平道路。

桑达尔·皮查伊在寄语里把Gemini 2.0的进展一部分归功于TPU。他写道:“Gemini 2.0 的进展得益于我们所特有的长达 10 年全栈式 AI 创新研究的投入,它基于我们定制的硬件第六代 TPU Trillium 构建而成。TPU 为 Gemini 2.0 的训练和推理提供 100% 算力支持。”谷歌第六代TPU Trillium发布于今年5月份的Google I/O大会上。

而现在,谷歌宣布第六代 TPU Trillium正式面向客户开放。

相比于上一代,第六代Trillium训练成绩提高4倍以上,推理吞吐量提高3倍,能源效率提高67%,每个芯片的峰值计算性能提高了4.7倍,HBM (High Bandwidth Memory)容量翻倍,ICI (Interchip Interconnect)带宽增加一倍。

谷歌Cloud计算与人工智能基础设施副总裁Mark Lohmeyer在官方资料里指出,这些增强功能使Trillium能够在广泛的人工智能工作负载中脱颖而出,包括:扩展AI训练工作量、培训法学硕士包括密集和混合专家(MoE)模型、推理性能和集合调度、Embedding-intensive模型、提供培训和推理性价比等。

谷歌第六代 TPU Trillium

结合这次整场发布可以看出,谷歌正在努力平衡AI的加度和深度思考能力,希望找到一个既能快速响应、又能进行深度推理的平衡点,目标是将这些先进技术以最实用的方式带给用户和产业。这个过程虽然充满挑战,但也充满希望。

最新文章
SEO点击软件推荐特效(seo点击软件推荐特效怎么做)
大家好,今天小编关注到一个比较有意思的话题,就是关于SEO点击软件推荐特效的问题,于是小编就整理了3个相关介绍SEO点击软件推荐特效的解答,让我们一起看看吧。怎样判断自己的视频要火了?如何选择关键词?抖音上那些制作的特效视频,是
浅谈人工智能在网络运维优化中的应用
当前人工智能正处在飞速发展阶段,已在多领域取得实质性突破。对通信领域而言,随着通信网络的复杂化和通信业务的多样化,网络运营正面临更大的挑战和压力,将人工智能引入通信网络成为网络智能化的必要步骤。围绕网络运营重要环节之一的网
百度关键词搜索官网_如何查看百度关键词搜索量
搜索引擎(百度)关键字搜索的需求分析和结果设计搜索引擎(假设是百度)每天响应成千上万的词语,有时候需求是明确的,比如搜索物品,搜索目的地;需求有时是模糊的,比如搜索穿搭等。与之对应等我继续说。 优秀的搜索应该都给你一个满意的结
【7105(联通4G)腾讯手机管家下载】酷派7105 联通4G腾讯手机管家16.1.19免费下载
腾讯手机管家专注手机骚扰拦截,动态守护手机安全,深度清理微信、QQ缓存,让手机体积减半,拒绝卡慢。---认真服务---【骚扰拦截】智能拦截骚扰电话,过滤诈骗垃圾短信【清理加速】清理加速能力升级,释放空间告别卡慢【微信清理】个性清理
海淀塑壳断路器CDM1-800L/3300|800A用途+2025排名一览
海淀塑壳断路器CDM1-800L/3300|800A用途+2025排名一览 1. 产品概述 - WSK - S-(TH)智能温湿度控制器是一种能够对环境温湿度进行精确监测和控制的设备。它结合了先进的传感器技术和智能控制算法,用于维持环境温湿度在设定的范围内。2. 功能
苏宁极物密码锁维修客服电话-苏宁极物密码锁维修客服电话是多少
苏宁极物密码锁维修客服电话是--。 作为一家全国知名的智能锁品牌,苏宁极物密码锁在各个城市都有良好的销售和售后服务网络。无论您身处哪个区域,只需拨打苏宁极物密码锁维修客服电话--,即可得到专业的技术支持和贴心的服务。如果您位于
梦幻西游超级神猴实用性详解 大快朵颐技能隐藏效果
  这是存必杀的状态,会一直保持金色,就是前面说的触发大快朵颐后一次攻击把怪秒了,会存一次必杀,下次攻击必定必杀。
qq群排名靠前方法有哪些?(qq群排名靠前方法推荐)
由于腾讯时时刻刻都在更新着自己的群排名算法,所以每天的群排名优化的方法也是不一样的,虽然腾讯的群排名时刻更新,但是毕竟和搜索引擎比如百度360这些还是有差距的,他们的算法据说是跟可口可乐的配方一样保密的,但是腾讯的就不一样了
巨量引擎开户联系电话 抖音广告开户联系电话!
2017年06月13日时胜蕊100抖音、快手、微信朋友圈、百度、360、搜狗、神马、广点通、小红书、微博、今日头条等网络推广渠道技术开发、技术推广、技术转让、技术咨询、技术服务;销售自行开发的产品;计算机系统服务;基础软件服务、应用软件
最新以图搜图网站推荐+效果对比+搜图插件
        对于很多小白来说,以图搜图工具越来越多,以至于不知如何选择。于是,本文将简要比较一些主要图像搜索引擎的查找功能,这些工具各有千秋。读完你会发现:某个引擎好不好用,取决于你到底要搜什么、想要什么。向大家推荐搜
相关文章
推荐文章
发表评论
0评