分享好友 最新动态首页 最新动态分类 切换频道
OpenAI持续12天发布会过半,谷歌深夜截胡式炸场:Gemini 2.0来了
2024-12-25 14:27

  那边OpenAI持续12天的直播连续剧还没完结,隔壁谷歌已经坐不住了开始放大招,火药味溢出屏幕。

  就在北京时间12月11日深夜23:30,谷歌正式发布Gemini 2.0,标志着其向能够独立完成复杂任务的AI系统迈出了雄心勃勃的一步。并且谷歌基于这次版本更新,一次性发布多个AI Agent(智能体)成果,包括:

  用多模态理解现实世界的智能体「Project Astra」这次升级了技能;发布Project Mariner,一个建立在 Gemini 2.0之上的新智能体,可以帮忙浏览网页,并处理复杂任务;发布Jules,一个由 Gemini 2.0驱动的新型编码智能体,主要面向开发者;以及发布一些用于游戏、机器人、深度研究场景的智能体,用实力诠释什么叫做“要啥有啥”。除了智能体系列霸屏之外,谷歌此次还官宣了第六代TPU——Trillium正式面向客户开放。

  Google 和 Alphabet 首席执行官 Sundar Pichai(桑达尔·皮查伊)在寄语里直言:“Gemini 2.0是谷歌迄今为止最强大的模型,它能够构建新的AI智能体,从而让我们离构建通用助手的愿景更进一步。”桑达尔·皮查伊第一时间发了推文,向开发者安利这款模型。

  Google 和 Alphabet 首席执行官 Sundar Pichai(桑达尔·皮查伊)的社交平台截图

  不难看出,这次谷歌的强势出手,都是围绕一个主轴——AI智能体(Agent)。其实不止谷歌,很多AI巨头,尤其是以 OpenAI、Anthropic 和谷歌为首,一直是AI智能体的布道者。桑达尔·皮查伊在这次发布的致辞中,将AI智能体描述为“能够更多地了解你周围的世界、提前思考多个步骤、并在你的监督下代表你采取行动的模型”。

  在这次发布前夕的媒体沟通会上,Google DeepMind Gemini产品管理总监Tulsee Doshi指出:“Google DeepMind研究AI智能体能力已经有很长一段时间了,我认为这个特定词在过去几个月已经有了新的含义。”以Project Astra为例,它的核心原则是拥有眼睛、耳朵和声音的智能体,可以识别并理解物理世界,并与人交互,帮人做事。

  谈及背后逻辑,Google DeepMind Project Astra项目产品经理徐Bibo Xu在采访中指出,在技术发展方向上,谷歌正在平衡两个关键领域:一方面继续扩大模型规模,提升基础性能;另一方面,加强后期训练优化和推理技术的改进,尤其关注多模态能力的提升,希望让AI能更好地理解和处理各类信息。

  Google DeepMind团队透露,明年初将推出Gemini 2.0系列模型的更多版本,大家很快就能见到Gemini更强大的表现。

  Gemini 2.0:为Agent而生

  去年年底,Gemini 1.0问世。Gemini 1.0和1.5是谷歌第一个基于多模态的模型,它支持多模态和长上下文,可以理解文本、视频、图像、音频和代码中的信息,并处理更多信息。

  一年后的今天,谷歌发布 Gemini 2.0 系列模型中的第一个版本:Gemini 2.0 Flash 体验版。在MMLU-Pro基准测试中,2.0 Flash的速度是1.5 Pro的两倍。

  在功能方面,2.0 Flash 除了能够支持图片、视频和音频等多模态输入,它还可以支持多模态输出,例如可以直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音(TTS)音频。而且,它还可以原生调用 Google Search、代码执行以及第三方用户定义的函数等工具。

  谷歌特别强调了对开发者的赋能。官网资料里提到,Gemini 2.0 Flash 现在可以通过谷歌的两款生成式AI产品—— Google AI Studio 和 Vertex AI 中的 Gemini API 获取,所有开发者均可使用「多模态输入」和「文本输出」,可使用原生文本转语音和图像的生成功能。该产品将于2025年1月份上市,到时候Gemini 2.0将迎来更多版本型号。

  为了帮助开发者构建动态和交互式应用程序,谷歌还发布了最新Multimodal Live API,它具有实时音频、视频流输入、以及使用多个组合工具的能力。

  谷歌强调,在接下来的几个月里,将把Gemini 2.0 引入Android Studio、Chrome DevTools、Firebase等平台。开发人员可以在Gemini Code Assist中注册使用Gemini 2.0 Flash,以便在流行的ide(如Visual Studio Code、IntelliJ、PyCharm等)中增强编码辅助功能。

  而对于更广泛的个人用户,全球的 Gemini 用户可以通过在电脑端和移动端网页的模型下拉菜单中进行选择,来体验2.0 Flash 体验版,并且该版本将很快在 Gemini 移动应用中推出。2025年初,谷歌还会将 Gemini 2.0 扩展到更多产品中。

  比如,Gemini 2.0 的高级推理能力将融入谷歌搜索中的AI概览(AI Overviews),以攻克更复杂的主题和多步骤问题,包括高等数学方程、多模态查询和编码。该功能本周已经进行了小范围测试,明年初将在更大范围推出。

  

  Agent!Agent!还是Agent!

  这次发布或许最重要的是,谷歌推出了一批基于 Gemini 2.0 架构的原型 AI智能体,展示了在该领域的野心。其中包括:

  1、Project Astra大幅升级,用于探索未来通用AI助手能力的研究原型。

  Project Astra的首次亮相是在今年5月份的Google I/O 大会上,当时科技行者在现场目睹了那次发布,在演示视频中,Project Astra通过手机摄像头能看见、能识别、能理解物理世界的周围环境,还能解答用户提问并提供即时反馈。当时在现场收获了一阵掌声。

  而现在,基于 Gemini 2.0 版本的Project Astra,进行了一系列升级,谷歌对此又发了一支演示视频。

  

  看起来,进化后的Project Astra与人交互更自然了,这次的更新具体而言覆盖了方方面面:

  首先,它实现了更流畅的对话。演示视频中可见,Project Astra可以在多种语言之间进行自然对话,比如法语和泰米尔语,能理解不同口音和生僻单词。

  其次,它能调用新工具。看起来是通过文本、语音、图像和视频回答问题并执行任务,并在需要时调用现有的谷歌应用,如搜索、地图和摄像头。“它融合了我们这个时代一些最强大的信息检索系统。”Bibo Xu在这次媒体沟通会上说道。

  第三,它有了更强的记忆力。演示视频中,Project Astra 能够记住门禁密码,并且过了一段时间被问到时,还是能准确回忆起门禁密码。在整个测试过程中,即使经过多个不同场景的对话,Project Astra仍能准确调取之前存储的信息。

  关于Project Astra的记忆能力,Bibo Xu在媒体沟通会上介绍,Project Astra 拥有两种记忆能力,一个是「图形记忆能力」,最多可以记住10分钟内看到的每一个画面像素;另一个是「对话记忆能力」,最多可以存储60段历史对话,并在需要时调用这些内容。

  据悉,谷歌正在将Project Astra的功能植入自家产品中,比如Gemini app、智能眼镜等。而且即将开放给一批“受信任的测试人员”,测试 Project Astra 在原型智能眼镜上的表现。

  2、除了Project Astra的升级之外,谷歌此次还发布一个新的智能体Project Mariner。

  Project Mariner能够理解和推理浏览器页面中的信息(包括像素、文本、代码、图像和表单等),然后通过Chrome 扩展程序使用这些信息,为用户完成复杂任务。

  谷歌指出,在 WebVoyager 基准测试(该测试针对智能体在端到端的真实世界网页任务的性能)中,Project Mariner 作为单个智能体设置实现了 83.5% 的工作效率,达到了最先进的水平。

  从安全性的角度考虑,谷歌在博客中强调:“正在积极研究新型风险和应对措施,始终保持有人类的参与和监督。例如,Project Mariner 只能在浏览器上的活动标签页中键入、滚动或单击,而它在采取某些敏感操作(如购买某物)之前,会要求用户进行最终确认。”

  

  3、面向开发者的编码智能体Jules。

  谷歌这次发布的另一个新智能体,是专门面向开发者的编码智能体Jules,它可以直接集成到 GitHub 工作流程中来协助开发者工作。

  对于开发者来说,比写代码更头疼的可能是找bug,而现在,可以将Python和Javascript编码任务交给Jules,Jules可以处理bug修复和其他耗时的任务,它可以有效修改多个文件,甚至拉取请求来直接将修复返回到GitHub,那么开发者就可以专注于其他任务。

  4、更多“智能体们”,用于游戏、机器人、研究等更多领域。

  除了上述“叫得上名字的”智能体之外,谷歌这次还演示了一些内置在Gemini 2.0的“智能体们”,用于游戏、机器人、研究等更多领域。

  “Google DeepMind 一直以来都在利用游戏帮助AI模型更好地遵守规则、进行规划、并运用逻辑思维。”谷歌在官网资料里指出。比如在上周,谷歌推出了Genie 2,一个可以从单个图像创建无限多种可玩 3D 世界的 AI 模型。

  而这次,谷歌基于Gemini 2.0 构建了一些智能体,专门用于游戏场景。演示视频中可见,该智能体可以根据屏幕上的实时画面,分析游戏情况,并提供下一步操作建议;此外,当被用户问到游戏知识时,它还能调用搜索,检索到相关知识并给出建议。

  

  为了进一步探索智能体在游戏领域的应用,谷歌正在与Supercell等游戏开发团队合作,通过测试它们在《部落冲突》、《海岛奇兵》等各种游戏中的表现,来评估智能体们理解游戏规则、应对挑战的能力。

  除了探索虚拟世界的智能体能力外,谷歌还将 Gemini 2.0 的空间推理能力应用于机器人领域,尝试让智能体在现实世界中提供帮助。不过谷歌方面指出,这项研究仍处于初期阶段。

  此外,谷歌在 Gemini Advanced 中还引入了一项名为“深度研究(Deep Research)”的新代理功能,这是一个研究助手,可以深入研究复杂主题并为创建包含相关来源链接的报告。该功能自今日起对 Gemini Advanced 用户开放。

  “思维链是我们思考如何构建模型的重要组成部分。”Tulsee Doshi在媒体采访中指出,比如AlphaCode和AlphaProof,这些都是能够展示深度思维和推理时间的真正强大模型,它们能够在代码和数学方面提升性能。

  值得一提的是,谷歌这次依然特别强调了安全与责任的重要性,为此制定了“负责任的AI”原则,在数据处理、模型训练等各个环节都实施了严格的安全把关。

  谷歌在对外发布资料里强调了秉持“负责任的AI”原则

  Gemini 2.0背后的功臣:第六代Trillium

  如此密集的AI智能体们,以及承载这些智能体的AI大模型们,给硬件基础设施带来了特殊挑战。因为这些模型需要巨大的计算能力和专门的硬件来有效地处理训练、微调和推理。

  十多年前,谷歌开始开发定制的人工智能加速器——张量处理单元(TPU),它集成了软硬件、机器学习框架、以及大模型,以满足人工智能工作负载不断增长的需求,为多模态人工智能铺平道路。

  桑达尔·皮查伊在寄语里把Gemini 2.0的进展一部分归功于TPU。他写道:“Gemini 2.0 的进展得益于我们所特有的长达 10 年全栈式 AI 创新研究的投入,它基于我们定制的硬件第六代 TPU Trillium 构建而成。TPU 为 Gemini 2.0 的训练和推理提供 100% 算力支持。”谷歌第六代TPU Trillium发布于今年5月份的Google I/O大会上。

  而现在,谷歌宣布第六代 TPU Trillium正式面向客户开放。

  相比于上一代,第六代Trillium训练成绩提高4倍以上,推理吞吐量提高3倍,能源效率提高67%,每个芯片的峰值计算性能提高了4.7倍,HBM (High Bandwidth Memory)容量翻倍,ICI (Interchip Interconnect)带宽增加一倍。

  谷歌Cloud计算与人工智能基础设施副总裁Mark Lohmeyer在官方资料里指出,这些增强功能使Trillium能够在广泛的人工智能工作负载中脱颖而出,包括:扩展AI训练工作量、培训法学硕士包括密集和混合专家(MoE)模型、推理性能和集合调度、Embedding-intensive模型、提供培训和推理性价比等。

  谷歌第六代 TPU Trillium

  结合这次整场发布可以看出,谷歌正在努力平衡AI的加度和深度思考能力,希望找到一个既能快速响应、又能进行深度推理的平衡点,目标是将这些先进技术以最实用的方式带给用户和产业。这个过程虽然充满挑战,但也充满希望。

最新文章
12月官方公布:重庆看诊股骨头坏死定点医院名单公开
12月官方公布:重庆看诊股骨头坏死定点医院名单公开,排名公布:重庆骨科医院重庆红楼医院。重庆治疗骨科医院排名公布:1.重庆骨科医院.2重庆红楼医院骨科.3.重庆专业治疗骨科医院。股骨头坏死大都有创伤、药物、酒精中毒及其减压病等因素
0元试用!多多云手机免费版免付费使用,免费云手机挂机app下载即享!
为您揭秘一款颠覆传统手机使用方式的利器——多多云手机,它不仅支持一台手机或者电脑分身为多台虚拟手机,更以其卓越的性能和贴心的免费云手机试用政策,成为众多用户的首选,云手机对于需要同时管理多个账号的用户(如游戏工作室、营销机
4GB不是尽头 安卓手机内存极限是多少?
CES2015,首款4GB运行(RAM)手机“华硕ZenFone2”亮相,霸气到展馆找不到朋友。时隔不到一月,顶配版小米note打破手机的天下无双,预示下一轮嘘头点--“4GB内存+64位处理器+64位系统”即将到来。如果不具备这一点,都不好意思说自己是旗
2022最新手机cpu性能天梯图
在使用我们的手机的时候,很多人都知道哪些手机运行速度快,哪些手机运行不行,这一切都和CPU息息相关,但是很多的用户们都不清楚目前最好的手机CPU是哪一款呢,下面小编就给大家介绍2022最新手机cpu性能天梯图以及手机cpu性能排行前三推
AI生成美女写真:体验超真实的数字艺术之旅,轻松实现你的梦想女友!
DeepAI:DeepAI提供了一款免费的在线AI画图工具,允许用户通过简单的描述生成对应的美女图像。其优势是快速方便,几乎无需任何技巧,适合初学者使用。然而,由于生成效果依赖于描述的准确性,有时可能会得到意想不到的结果,需反复调整。Da
HTTP 与 HTTPS 代理 - 优缺点解释
W3Techs 的另一份报告显示,截至 2021 年 81.8 月,XNUMX% 的网站都在使用 HTTPS。 随着越来越多的网站采用 HTTPS 以及新技术的开发使其更加安全,这一数字预计将继续增长。很大一部分用户信任不受他们控制且他们不完全理解的系统。 由证书
2024年最受欢迎的5款AI写作工具,你选对了吗?
写文章、做报告、整理资料……是不是总觉得时间不够用?明明打字速度还不错,但脑子就是跟不上手,灵感更是像个调皮的小孩,越是在最需要的时候越不见踪影!有没有什么工具能帮我们随时抓住那种转瞬即逝的灵感?2024年,一大波免费的AI写作
AI生成PPT后如何进行编辑与调整:全方位解答用户编辑与定制需求
在数字化浪潮的推动下人工智能()逐渐成为办公领域的得力助手。其是在PPT制作方面的介入极大地提升了效率和便捷性。生成的PPT往往需要依照客户的具体需求实编辑与调整,以满足个性化的展示需求。本文将全面解答使用者在编辑和定制生成PPT
相关文章
推荐文章
发表评论
0评