GPT-4o是OpenAI推出的最新且极为出色的大型语言模型(LLM)AI,为免费及付费用户带来了诸多全新功能。作为多模式AI,GPT-4o不仅提升了ChatGPT的响应速度和理解能力,还将在未来数周内陆续推出更多创新功能,进一步巩固其在与Meta的Llama 3和Google的Gemini等竞争对手较量中的领先地位。这正是其令人振奋之处。
供货与价格
若您已体验过ChatGPT免费版,并对ChatGPT Plus用户的专属功能心生羡慕,那么现在有个好消息要告诉您!免费用户现在同样可以尝试图像检测、文件上传、在GPT商店中搜索自定义GPT、利用内存功能在聊天时保留对话历史(避免重复表述)、分析数据以及执行复杂计算等功能。
此外,GPT-4o还具备标准GPT-4模型的更高智能水平,尽管它是作为多模态AI从头开始训练的,但其性能却与标准GPT-4模型相当。更令人欣喜的是,GPT-4o的计算成本大幅降低,所需令牌更少,使得更广泛的用户群体能够享受到这一先进技术的红利。
然而,免费用户每天向GPT-4o发送的消息数量是有限制的。一旦达到该阈值,系统将自动将您切换至GPT-3.5模型。
速度更快
GPT-4与GPT-3.5在速度上存在显著差异。尽管GPT-4在近年来取得了不少进展,并推出了GPT-4 Turbo,但其速度仍然相对较慢。相比之下,GPT-4o几乎能够做到即时响应。这使得其文本回复更加迅速且易于操作,语音对话也更加接近实时水平。
虽然响应速度的提升看似只是锦上添花的功能,但能够近乎实时地获得回复,使得GPT-4o在翻译、对话辅助等任务中成为更加实用的工具。
高级语音支持
尽管GPT-4o在首次亮相时仅支持文本和图像处理,但其设计之初就考虑到了语音命令的接入和与用户的音频互动能力。这意味着GPT-4可以接收语音输入并将其转换为文本进行处理,然后再将文本回复转换为语音输出。而GPT-4o则能够直接理解语音输入并以同样的方式做出响应。随着速度的提升,它能够以更加自然的对话方式做出回应,并理解语音中的独特元素,如语调、语速、情绪等。
GPT-4o能够大笑、讽刺、在犯错时自我纠正,并在对话过程中根据需要进行调整。您可以随时打断它,而不会影响其回应的连贯性。它还支持多语言理解并即时翻译,因此可以用作实时翻译工具。更令人惊喜的是,它甚至可以唱歌——甚至能够自唱二重唱。
这些功能可以应用于面试准备、唱歌指导、角色扮演NPC的运行、用不同声音和角色讲述戏剧性的睡前故事、为游戏项目创建有声对话、讲笑话(并对您的笑话做出笑声回应)等多个场景。
提高理解力
GPT-4o在理解您的话语方面比其前辈更加出色,尤其是当您与它进行语音交流时。它能够更好地理解您的语气和意图。如果您希望它轻松友好地与您交流,它会与您开玩笑并努力让对话保持轻松愉快的氛围。
当GPT-4o分析代码或文本时,它会更加关注您的意图,从而能够更准确地给出您想要的回应而无需具体提示。它擅长阅读视频和图像内容,使其能够更好地理解周围的世界。在多个演示中,OpenAI展示了用户拍摄自己所在房间并用GPT-4o模型进行描述的场景。在一个视频中,人工智能甚至向自己的另一个版本描述了房间空间,后者则根据该描述做出了相应的反应。
原生macOS桌面应用程序
目前,Windows系统中的原生AI应用仍然非常有限(仅限于Copilot),但macOS用户很快就能直接从桌面充分利用ChatGPT及其全新的GPT-4o模型了。借助全新的原生桌面应用程序,ChatGPT将变得更加易用——并且配备了全新的用户界面——使其比以往任何时候都更加便捷。
该应用将在未来几天内向大多数ChatGPT Plus用户推出,并计划在未来几周内面向免费用户开放。而Windows版本则预计将于今年晚些时候推出。
一切尚在进行中
在撰写本文时(2024年11月),GPT-4o仅向公众开放了文本和图像模式。高级语音支持、实时视频理解等功能尚未推出,且macOS桌面应用程序也至少需要再过几天才会全面开放给所有用户。