GPT-4o：最新的 ChatGPT 更新可以做什么以及何时可以获得它

GPT-4o：最新的 ChatGPT 更新可以做什么以及何时可以获得它

2024-12-26 21:57

GPT-4o是OpenAI推出的最新且极为出色的大型语言模型（LLM）AI，为免费及付费用户带来了诸多全新功能。作为多模式AI，GPT-4o不仅提升了ChatGPT的响应速度和理解能力，还将在未来数周内陆续推出更多创新功能，进一步巩固其在与Meta的Llama 3和Google的Gemini等竞争对手较量中的领先地位。这正是其令人振奋之处。

供货与价格

若您已体验过ChatGPT免费版，并对ChatGPT Plus用户的专属功能心生羡慕，那么现在有个好消息要告诉您！免费用户现在同样可以尝试图像检测、文件上传、在GPT商店中搜索自定义GPT、利用内存功能在聊天时保留对话历史（避免重复表述）、分析数据以及执行复杂计算等功能。

此外，GPT-4o还具备标准GPT-4模型的更高智能水平，尽管它是作为多模态AI从头开始训练的，但其性能却与标准GPT-4模型相当。更令人欣喜的是，GPT-4o的计算成本大幅降低，所需令牌更少，使得更广泛的用户群体能够享受到这一先进技术的红利。

然而，免费用户每天向GPT-4o发送的消息数量是有限制的。一旦达到该阈值，系统将自动将您切换至GPT-3.5模型。

速度更快

GPT-4与GPT-3.5在速度上存在显著差异。尽管GPT-4在近年来取得了不少进展，并推出了GPT-4 Turbo，但其速度仍然相对较慢。相比之下，GPT-4o几乎能够做到即时响应。这使得其文本回复更加迅速且易于操作，语音对话也更加接近实时水平。

虽然响应速度的提升看似只是锦上添花的功能，但能够近乎实时地获得回复，使得GPT-4o在翻译、对话辅助等任务中成为更加实用的工具。

高级语音支持

尽管GPT-4o在首次亮相时仅支持文本和图像处理，但其设计之初就考虑到了语音命令的接入和与用户的音频互动能力。这意味着GPT-4可以接收语音输入并将其转换为文本进行处理，然后再将文本回复转换为语音输出。而GPT-4o则能够直接理解语音输入并以同样的方式做出响应。随着速度的提升，它能够以更加自然的对话方式做出回应，并理解语音中的独特元素，如语调、语速、情绪等。

GPT-4o能够大笑、讽刺、在犯错时自我纠正，并在对话过程中根据需要进行调整。您可以随时打断它，而不会影响其回应的连贯性。它还支持多语言理解并即时翻译，因此可以用作实时翻译工具。更令人惊喜的是，它甚至可以唱歌——甚至能够自唱二重唱。

这些功能可以应用于面试准备、唱歌指导、角色扮演NPC的运行、用不同声音和角色讲述戏剧性的睡前故事、为游戏项目创建有声对话、讲笑话（并对您的笑话做出笑声回应）等多个场景。

提高理解力

GPT-4o在理解您的话语方面比其前辈更加出色，尤其是当您与它进行语音交流时。它能够更好地理解您的语气和意图。如果您希望它轻松友好地与您交流，它会与您开玩笑并努力让对话保持轻松愉快的氛围。

当GPT-4o分析代码或文本时，它会更加关注您的意图，从而能够更准确地给出您想要的回应而无需具体提示。它擅长阅读视频和图像内容，使其能够更好地理解周围的世界。在多个演示中，OpenAI展示了用户拍摄自己所在房间并用GPT-4o模型进行描述的场景。在一个视频中，人工智能甚至向自己的另一个版本描述了房间空间，后者则根据该描述做出了相应的反应。

原生macOS桌面应用程序

目前，Windows系统中的原生AI应用仍然非常有限（仅限于Copilot），但macOS用户很快就能直接从桌面充分利用ChatGPT及其全新的GPT-4o模型了。借助全新的原生桌面应用程序，ChatGPT将变得更加易用——并且配备了全新的用户界面——使其比以往任何时候都更加便捷。

该应用将在未来几天内向大多数ChatGPT Plus用户推出，并计划在未来几周内面向免费用户开放。而Windows版本则预计将于今年晚些时候推出。

一切尚在进行中

在撰写本文时（2024年11月），GPT-4o仅向公众开放了文本和图像模式。高级语音支持、实时视频理解等功能尚未推出，且macOS桌面应用程序也至少需要再过几天才会全面开放给所有用户。