全力狙击OpenAI，谷歌最强大模型Gemini 2.0登场，AI Agent成主打！

分享好友最新动态首页最新动态分类切换频道

全力狙击OpenAI，谷歌最强大模型Gemini 2.0登场，AI Agent成主打！

2024-12-27 12:51

OpenAI的12天“圣诞大礼包”还没熄火，谷歌便用一次发布，干了比OpenAI 五天都多的事儿。

12月12日凌晨，就在OpenAI轰轰烈烈的“12天连续发布”进行到第五天时，谷歌发布了他们的重磅更新——Gemini 2.0 Flash。

同时，谷歌今天官宣了三个通用助手Project Astra，浏览器助手Project Mariner，以及代码助手Jules，旨在引领AI模型进入“Agentic 时代”。

Gemini 2.0

Gemini 2.0 Flash是该系列的首款模型，它在性能上实现了显著提升。与前代1.5 Flash相比，2.0 Flash在保持快速响应的同时，性能进一步增强。

谷歌表示，2.0 Flash在关键基准测试中超越了1.5 Pro，速度是1.5 Pro的两倍。新模型不仅支持图像、视频和音频等多模态输入，还支持多模态输出，包括原生生成的图像与文本混合内容，以及可控的多语言文本转语音(TTS)音频。

此外，2.0 Flash能够原生调用Google Search、代码执行以及第三方用户定义的函数等工具。

在这个榜单中我们可以看到，它超越了ChatGPT-4o和o1 Preview，登上了第一。这足见其模型的实力。

从命名来看，Gemini 2.0 Flash很可能是新系列的最小杯，最小赢过了竞争对手最大、最先进的模型，这让人甚至都很难想象 Gemini 2.0 Ultra 会强到什么地步。

正如谷歌DeepMind的CTO科雷·卡武克奥卢所说：

“如果把我们一年前的位置和现在相比，今天发布的Flash模型比我们一年前的任何模型都要强大得多，而且成本只是其一小部分。”

Gemini 2.0 Flash的多模态能力使其在信息理解和表达上更加接近人类，为用户提供了更加丰富和直观的交互方式。这种能力的提升，不仅增强了模型的实用性，也为AI智能体的应用提供了更多可能性。

谷歌还推出了新的多模态实时API，支持实时音频、视频流输入，并能够集成调用多种工具组合。这一API的推出，为开发者构建动态交互式应用提供了更多支持，这在教育、娱乐和辅助阅读等领域具有广泛的应用前景。

谷歌计划在明年初将Gemini 2.0扩展到更多产品中，这将进一步推动AI技术在各个领域的应用。

在AI智能体的应用方面，谷歌展示了多个研究原型，包括Project Astra、Project Mariner和Jules。

Project Astra是一个通用AI助手，它利用Gemini 2.0的多模态功能，通过手机或谷歌眼镜进行跨文本、音频、视频的多模态实时推理。

Astra的新功能包括支持多语言混合对话、直接调用Google Lens和地图功能、记忆能力提升至10分钟会话内记忆，以及接近人类对话的延迟来理解语言。谷歌正在将Project Astra移植到眼镜等更多移动终端中，以拓展其应用范围。

Project Mariner是一个基于Gemini 2.0构建的早期研究原型，它能够理解和推理浏览器页面中的信息，包括像素和网页元素，然后通过Chrome扩展程序使用这些信息为用户完成任务。在WebVoyager基准测试中，Project Mariner作为单个智能体设置实现了83.5%的工作效率。

Jules是谷歌专为开发者打造的AI编程智能体，它支持直接集成到GitHub工作流中，使用自然语言描述问题，就能直接生成可以合并到GitHub项目中的代码。

游戏智能体的新突破

谷歌还在游戏领域进行了有趣的尝试，使用Gemini 2.0构建了能够实时解读屏幕画面的游戏智能体，通过用户游戏屏幕上的动作给出下一步操作建议，或直接在打游戏时通过语音交流。

谷歌称，这些游戏智能体可以根据屏幕上的实时画面，分析游戏情况，并为用户提供下一步的行动建议。

目前，研究人员在与Supercell等游戏开发商合作，探索这些Agent从《部落冲突》等策略游戏到《Hay Day》等农业模拟器，在各种游戏中解释规则和挑战的能力。

未来，谷歌还在试验可以通过将Gemini 2.0的空间推理功能应用于机器人技术来在物理世界中提供帮助的Agent。

此外，谷歌正在探索将Gemini 2.0的空间推理能力应用到机器人领域，虽然还处于早期阶段，但这预示着AI代理在物理环境中提供帮助的潜力。