OpenAI的12天“圣诞大礼包”还没熄火,谷歌便用一次发布,干了比OpenAI 五天都多的事儿。
12月12日凌晨,就在OpenAI轰轰烈烈的“12天连续发布”进行到第五天时,谷歌发布了他们的重磅更新——Gemini 2.0 Flash。
同时,谷歌今天官宣了三个通用助手Project Astra,浏览器助手Project Mariner,以及代码助手Jules,旨在引领AI模型进入“Agentic 时代”。
Gemini 2.0
Gemini 2.0 Flash是该系列的首款模型,它在性能上实现了显著提升。与前代1.5 Flash相比,2.0 Flash在保持快速响应的同时,性能进一步增强。
谷歌表示,2.0 Flash在关键基准测试中超越了1.5 Pro,速度是1.5 Pro的两倍。新模型不仅支持图像、视频和音频等多模态输入,还支持多模态输出,包括原生生成的图像与文本混合内容,以及可控的多语言文本转语音(TTS)音频。
此外,2.0 Flash能够原生调用Google Search、代码执行以及第三方用户定义的函数等工具。
在这个榜单中我们可以看到,它超越了ChatGPT-4o和o1 Preview,登上了第一。这足见其模型的实力。
从命名来看,Gemini 2.0 Flash很可能是新系列的最小杯,最小赢过了竞争对手最大、最先进的模型,这让人甚至都很难想象 Gemini 2.0 Ultra 会强到什么地步。
正如谷歌DeepMind的CTO科雷·卡武克奥卢所说:
“如果把我们一年前的位置和现在相比,今天发布的Flash模型比我们一年前的任何模型都要强大得多,而且成本只是其一小部分。”
Gemini 2.0 Flash的多模态能力使其在信息理解和表达上更加接近人类,为用户提供了更加丰富和直观的交互方式。这种能力的提升,不仅增强了模型的实用性,也为AI智能体的应用提供了更多可能性。
谷歌还推出了新的多模态实时API,支持实时音频、视频流输入,并能够集成调用多种工具组合。这一API的推出,为开发者构建动态交互式应用提供了更多支持,这在教育、娱乐和辅助阅读等领域具有广泛的应用前景。
谷歌计划在明年初将Gemini 2.0扩展到更多产品中,这将进一步推动AI技术在各个领域的应用。
在AI智能体的应用方面,谷歌展示了多个研究原型,包括Project Astra、Project Mariner和Jules。
Project Astra是一个通用AI助手,它利用Gemini 2.0的多模态功能,通过手机或谷歌眼镜进行跨文本、音频、视频的多模态实时推理。
Astra的新功能包括支持多语言混合对话、直接调用Google Lens和地图功能、记忆能力提升至10分钟会话内记忆,以及接近人类对话的延迟来理解语言。谷歌正在将Project Astra移植到眼镜等更多移动终端中,以拓展其应用范围。
Project Mariner是一个基于Gemini 2.0构建的早期研究原型,它能够理解和推理浏览器页面中的信息,包括像素和网页元素,然后通过Chrome扩展程序使用这些信息为用户完成任务。在WebVoyager基准测试中,Project Mariner作为单个智能体设置实现了83.5%的工作效率。
Jules是谷歌专为开发者打造的AI编程智能体,它支持直接集成到GitHub工作流中,使用自然语言描述问题,就能直接生成可以合并到GitHub项目中的代码。
游戏智能体的新突破
谷歌还在游戏领域进行了有趣的尝试,使用Gemini 2.0构建了能够实时解读屏幕画面的游戏智能体,通过用户游戏屏幕上的动作给出下一步操作建议,或直接在打游戏时通过语音交流。
谷歌称,这些游戏智能体可以根据屏幕上的实时画面,分析游戏情况,并为用户提供下一步的行动建议。
目前,研究人员在与Supercell等游戏开发商合作,探索这些Agent从《部落冲突》等策略游戏到《Hay Day》等农业模拟器,在各种游戏中解释规则和挑战的能力。
未来,谷歌还在试验可以通过将Gemini 2.0的空间推理功能应用于机器人技术来在物理世界中提供帮助的Agent。
此外,谷歌正在探索将Gemini 2.0的空间推理能力应用到机器人领域,虽然还处于早期阶段,但这预示着AI代理在物理环境中提供帮助的潜力。