分享好友 最新动态首页 最新动态分类 切换频道
OpenAI推出最新大模型“GPT-4o”,你的快乐悲伤它都能读懂
2024-12-26 10:50

那么在周一的发布会上,OpenAI究竟推出了什么“魔力(magic)”产品?

GPT-4o,OpenAI首款能分析情绪的多模态大型语言模型

GPT-4o中的“o”代表“Omnimodal”,顾名思义,这是一个基于GPT-4之上的多模态大模型。

更值得关注的是,GPT-4o能够与用户进行多样化的语气交互,并精准捕捉到用户的情绪变化,这是一大进步。与之前版本仅通过“语音转文字(voice-to-text)”来识别语音输入不同,GPT-4o能够实时处理语音输入并响应用户的情感和语气。

在直播过程中,两位OpenAI的员工向大家展示了GPT-4o的更新细节。

1.感知用户情绪:前沿研究部门主管陈信翰(Mark Chen)让ChatGPT-4o聆听他的呼吸,聊天机器人侦测到他急促的呼吸,并幽默地建议他不要像吸尘器那样呼吸,要放慢速度。随后Mark深呼吸一次,GPT-4o则表示这才是正确的呼吸方式。

4.更即时的语音交互:ChatGPT-4o的响应时间得到缩短,与用户的交互更加即时。穆拉提和陈信翰利用新的聊天机器人展示了跨语言的实时翻译功能,能够在英语和意大利语之间无缝转换。

由此可见,这次更新的重点在于使聊天机器人不再那么机械冷漠,而是更加接近真实人类,能够理解并表达情绪。那么,GPT-4o是如何实现情感识别的呢?

OpenAI目前还没有公布更多的技术细节,但根据其在官网的概述,在GPT-4o之前,使用ChatGPT的语音模式时,需要通过三个相互独立的模型来进行接力处理:

1. 第一个模型将音频转换为文本;

2. 接着由GPT-3.5或GPT-4处理文本输入并输出文本;

3. 最后一个模型再将文本转换回音频。

这种处理方式常导致信息的大量丢失,例如无法捕捉到语调、识别多个说话者或背景噪音,也无法生成笑声、歌唱或其他情感表达。

GPT-4o的创新之处在于,它是OpenAI的首个整合文本、视觉和音频多模态输入与输出的模型。通过端到端地训练一个统一的新模型,实现了所有输入和输出的处理都由同一个神经网络完成。

除了多模态输入输出,GPT-4o还具备更快的响应速度:能够在短至232毫秒内响应音频输入,平均响应时间为320毫秒,接近人类在对话中的响应时间。

GPT-4o在英语文本和代码上的性能与GPT-4 Turbo性能相当,在非英语文本上的性能显著提高,同时API的速度也更快,成本降低了50%。与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色。

GPT-4o在5216毫秒(5.216秒)内处理了574个Token,约等于 110 Token/秒;GPT-4 Turbo在23442毫秒(23.442秒)内处理了474个Token,约等于20 Token/秒。前者的处理速度是后者的大约5.44倍。

“ELO分数最终可能受到提示难度的限制。我们发现在更难的提示集上 — 尤其是编程 — GPT-4o 的ELO比我们之前最好的模型高出100分,”这位工程师补充道。

目前,开发者已能通过API使用GPT-4o的文本和视觉模式。

此外,OpenAI还对ChatGPT的用户界面(UI)进行了优化,并且推出了适用于macOS系统的ChatGPT应用程序,已向付费用户开放。该公司表示今年晚些时候还将推出Windows版本的ChatGPT应用程序。

苹果将用GPT-4o取代自家语音助手Siri?

GPT-4o的推出带动了苹果股价小幅上涨。

上周五,报道称苹果正考虑在下一代iOS18系统中集成ChatGPT技术。如果与OpenAI达成协议,苹果可能会推出基于ChatGPT的聊天助理,作为公司计划在6月发布的一系列新人工智能功能之一。多年来,苹果一直是包括沃伦·巴菲特在内的顶级投资者和投资机构青睐的科技股,并且是市值第一大科技公司,但近年来涨幅却跑输其他大科技公司。

今年以来,苹果股价下跌了2%左右,而微软股价则上涨了10% 以上。得益于其在AI领域的领先地位(特别是与OpenAI的深度合作)以及在云业务和办公套件中加入AI技术,微软已成为全球市值最高的公司,这一领先地位看似还将持续一段时间。

纵观其他Magnificent 7公司的市值:谷歌凭借Gemini增长了20%,拥有开源大语言模型LLaMA的Meta上涨了32%,投资了明星AI初创企业Antropic的亚马逊增长了22%;被誉为AI行业“军火商”的芯片公司英伟达的市值更是增长了82%之多。(注:Magnificent 7是指7家拥有垄断/寡头地位、定价能力、长期盈利能力的科技公司,即微软、谷歌、Meta、亚马逊、英伟达、苹果和特斯拉。)

分析师们普遍认为,苹果的增速放缓主要归因于核心业务iPhone增长疲软,以及缺乏新的AI产品线。虽然Siri作为AI语音助手于2011年推出,但在准确性和实用性方面远逊于谷歌、亚马逊和OpenAI的竞品。

另一方面,手机业务的竞争对手们也已先于苹果在手机中引入新的AI功能。例如,三星电子最近推出的高端Galaxy手机采用了最新的生成式AI技术,提供实时语言翻译、总结笔记和编辑照片等功能。

面对来自四面八方的压力,苹果在今年二月宣布取消长达十年的造车计划,并将部分员工转至生成式AI团队,标志着AI将成为公司未来发展的重点。

在5月2日与分析师举行的电话会议上,蒂姆·库克称凭借将硬件、软件和服务无缝集成的能力,苹果有优势在AI时代脱颖而出。这位首席执行官在去年就表示使用过ChatGPT,并认为当时的ChatGPT还有很多问题需要解决。他反复强调,苹果将在“非常深思熟虑的基础上”引入新的AI功能,这可能解释了为什么苹果在推出AI产品线方面进展缓慢。

最新文章
推荐一款“小程序蜀山四川麻将外卦神器下载安装”确实真的有挂
本篇文章给大家谈谈怎样看出手机打牌开挂没,以及手机麻将怎么看出来是开挂对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。无需打开直接搜索微信;1.打开手机桌面微信APP,进入微信主页。2.下拉微信主页,找到四川麻将小程序。注意
瞪大眼睛看:什么是珠宝的优化、处理?
优化、处理、天然相信不少朋友都有这样的经验,在购买珠宝的时候经常听到一些词汇,如“处理”,“优化”,“天然”,那么,到底什么是“处理”,什么是“优化”,他它们有什么区别呢,国家标准中又是如何规定的呢?国标里的定义按国家标准
雷克萨斯屏幕黑屏是什么原因
车上空调显示 L0 意思是空调处于最低温度或最低运行速度。如果空调能显示温度数值但显示为 L0代表此时空调处于最大制冷模式能把车内温度降到最低一般最低能到 18℃。
最热明星机 Nexus 4 root/解锁工具放出
    的这款凭借着谷歌的血统、高配低价的诱人性价比显然成为了目前最热的明星机型,甚至连都无法抢过它的风头;不知大家翘首以盼的 4是否已经到手,反正XDA论坛上的们已经抢先发布了针对于它的结合 root/解锁/Recovery等玩
高质量假期要有AI 用三星Galaxy S24系列点亮暑期旅途
暑期将至,许多用户已经开始计划一场精彩的假期旅行。数字化时代,智能是旅行中不可或缺的得力助手,而全新的三星 S24系列,以其卓越的性能、强大的影像系统和创新的AI体验,成为暑期旅行的好拍档。无论是拍摄美丽风景、探索未知事物,还是
网站优化推广秘诀,合作伙伴选择的关键揭秘
本文深入解析高效网站优化推广的关键,强调选择合适的合作伙伴的重要性。通过精准策略与专业团队协作,实现网站流量提升、品牌影响力增强。揭示优化推广的成功秘诀,助力企业实现网络营销目标。在互联网时代,网站已成为企业展示形象、拓展
阿里巴巴怎么注册开店
阿里巴巴作为全球领先的电子商务交易平台,为众多企业和个人提供了开设网店的机会。以下是关于如何在阿里巴巴注册开店的详细步骤,帮助有意入驻的商家顺利完成开店流程。首先,确保企业或个人具备合法的经营资质。这包括企业营业执照、税务
老房子翻新改造地砖有哪些类型?
  老房子翻新改造时,肯定会在地面部分使用各种各样的装饰材料,而地面部分十分受欢迎的多数还是地砖,但是多数业主对于地砖的类型并非十分了解,因此会担心出现上当受骗的情况。到底,老房子翻新改造地砖有哪些类型?这是不少的业主一直
互联网信息流广告代理正规授权 微信朋友圈广告代理
互联网信息流广告代理正规授权 微信朋友圈广告代理互联网信息流广告代理正规授权 微信朋友圈广告代理互联网信息流广告代理正规授权 微信朋友圈广告代理什么是微信朋友圈广告?众所周知,广告行业一直都是一个比较热门的行业,随着时代的发
相关文章
推荐文章
发表评论
0评