Sora独占鳌头,光芒掩盖了其他科技巨头,很少有人注意到Meta同期推出了视频模型技术架构V-JEPA。
惊叹过后,Sora到底能不能代表“世界模型”,也成为新的争议点。
Meta首席科学家Yann LeCun坚决指出,Sora并不能真的理解物理世界,“这样的视频生成与世界模型的因果预测仍然存在巨大差异”,并在接下来的几天里就此话题与网友展开了唇枪舌剑的争执。
源源不断的观点输出中,Yann LeCun更是直言,“通过生成像素来模拟真实世界,不仅是一种浪费,更是注定失败”。
作为“世界模型”的理论先驱,虽然Yann LeCun并未否认Sora在视频生成方面的杰出表现,但他始终强调Sora的生成式模型与“世界模型”相去甚远,反而是JEPA架构更能接近“世界模型”路线。
国内也有技术分析人士指出:“Sora只是二维视觉的压缩扩散和时空表达,既不是物理引擎,也不是世界模型。”
“世界模型”是目前技术流派中难度最高的一种,其特点在于让机器能够像人类一样对真实世界有一个全面而准确的认知,不仅包括对事物的描述和分类,还包括对事物的关系、规律、原因和结果的理解和预测,从而进行推理和决策。
“世界模型”也被认为是通往AGI的最优解。如果就这么被OpenAI抢去了“世界模型”的帽子,Yann LeCun是坚决不同意的,这位图灵奖得主甚至在社交平台愤怒表示:“我从没想过,会看到这么多从未为或机器学习做过任何事情的人告诉我,我对和机器学习的观点是错误、愚蠢、盲目、无知、误导、嫉妒、偏见、脱节的。”
Yann LeCun炮轰Sora背后,Meta与OpenAI关于“世界模型”的路径之争,同样激烈。
V-JEPA才是“世界模型”?
在Sora的技术文档中,OpenAI并不是那么“open”,文中大量篇幅是在介绍Sora的厉害之处,除了文生视频,还可以图生视频、拓展视频等,并未披露技术原理,而是使用了一种结论式表达——通过扩大视频生成模型的规模,我们有望构建出能够模拟物理世界的通用模拟器,这无疑是一条极具前景的发展道路。
随后,AI研究员Jim Fan的观点引领了舆论走向,他认为,Sora是一款数据驱动的物理引擎,是个可学习的模拟器或“世界模型”。
Meta的Yann LeCun明确反对,他指出,Sora只是经过训练可以生成像素,但如果这样的方式用来了解世界是如何运作的,那注定是个失败的命题。
“视频生成与‘世界模型’的因果预测有很大不同。” Yann LeCun表示,视频生成似是而非的空间非常大,只需要产生一个合理的样本就能视为成功,而真实视频的合理延续空间要小得多,尤其是在特定动作条件下,难度就更大了。
Yann LeCun认为,实现“世界模型”更理想的方式,应该是让机器智能像人类般学习、建立起周遭世界的内部模型,从而高效学习、适应并制定计划以完成种种复杂的任务。
这也正是他提出的JEPA(Joint Embedding Predictive Architectures,联合嵌入预测架构)的核心思想:不是填充缺失像素的生成式,而是预测。
人类最初对世界的理解,是从最自然的“观察”开始,在此基础上进行学习,总结经验,形成认知模型,即应对每一种情况应该采取什么态度或措施的“数据库”。LeCun表示,JEPA就是基于这种逻辑。
JEPA在2022年由Yann LeCun首次提出。两类模型I-JEPA和V-JEPA分别基于图像、视频进行抽象性预测。
Meta在官网上给出了参考视频。笔记本被遮挡了一部分,而V-JEPA能够对笔记本上的内容做出不同预测并形成视频图像。Meta表示,这是V-JEPA在观看200万个视频后才获取的能力。
V-JEPA生成被遮挡的部分,即以“人类理解的方式”看世界,不是通过手动标注,而是通过像人类一样的被动观察来建立对视频片段的概念理解。
Meta2月14日发布的论文中较为详细地介绍了V-JEPA的主要特点和工作原理。V-JEPA采取了一种特殊的网络架构,其中包括一个编码器(x-encoder)和一个预测器(predictor)。编码器负责提取视频帧的特征表示,而预测器则基于这些特征来预测目标帧的特征。
Meta提出,V-JEPA的出现是朝着AMI(Advanced Machine Intelligence)迈出的重要一步。而随着V-JEPA技术的发展,关于AI是否真正能够学会以人类的方式思考、是否能够拥有人类思维等人文伦理问题,或许会成为未来讨论的焦点。
财报中的AI成色
Meta最近披露的财报,收获了史上最佳成绩,2023年第四季度实现收入401.11亿美元,同比增长25%,这也是其自2021年三季度以来的最大季度增幅。
漂亮的财报之后,资本市场也给予了Meta积极反馈。2月2日,Meta市值暴涨,股价一天内涨逾20%,创下美股历史最高单日涨幅纪录,市值随之上涨2045亿美元。截至2月21日,Mata股价为471.75美元/股,市值达到1.2万亿美元,正是山巅荣耀时刻。
Meta首席执行官马克·扎克伯格(Mark Zuckerberg)指出,Meta在推动人工智能和元宇宙愿景方面取得了很大进展。通过与往年数据的对比,可以看出Meta拥抱AI对于自身的提升起到了积极影响。
Meta业绩上涨很大一部分是源于广告收入的增加,而AI为广告业务的增长赋能。Mata2023年广告收入为1319.48亿美元,较2022年增加16%。对此,Meta首席财务官苏珊·李(Susan Li)称,通过AI技术在广告平台的应用,Meta在持续改进广告服务能力并得到客户的积极反馈。
在AI为广告赋能的推动下,FoA(应用程序系列)实现业绩的稳定增长。与2022年相比,2023年的FoA实现收入1330.06亿美元,同比增加16%。
Meta财报指出,这一增长几乎完全是由广告收入推动的。2023 年,Meta FoA的广告展示量同比增长了28%,但每条广告的平均价格同比下降了9%,部分抵消了这一影响。具体而言,投放的广告数量与2022年的增长18%相比,增长了28%,原因是2023年所有地区的广告展示次数都有所增长。与此相对,2023年每条广告的平均价格下降了9%,相较于2022年的16%降幅更小。每条广告平均价格的下降是由投放的广告数量增加所致,尤其是在以较低费率获利的地区和Reels等产品中。
同时,FoA核心用户指标也超出市场预期。2023年12月,家庭日均活跃人数(DAP)为31.9亿人,同比增长8%。截至2023年12月31日,家庭月活跃人数(MAP)为39.8亿,同比增长6%。2023年12月,Facebook 日均活跃用户(DAU)为21.1亿,同比增长 6%。截至2023年12月31日,Facebook月活跃用户(MAU)为30.7亿,同比增长3%。
Meta在财报中指出,2024年将专注于六个关键投资领域,人工智能是其中之一。继续加大对于生成式AI的投资,推动AI持续为Meta产品和服务的各个计划赋能,包括支持应用中内容排名的系统、推荐相关内容的发现引擎、开发新的生成式AI体验,增强广告商对用户的吸引力,以及提高产品开发的效率。
认为,Meta上调2024年资本开支20亿美元至300亿~370亿美元,主要是基于AI相关基础设施投入。
积极拥抱AI的Meta
2022年,Meta深陷元宇宙泥沼,徘徊低谷,而如今以AI领域的开源路线扭转局势。
2023年7月,Meta与合作发布了开源模型LlaMa 2,包含70亿、130亿和700亿三种参数类型,可免费用于商业或者研究。
后续,Meta的开源AI杀出了OpenAI、谷歌主导的AI闭源模型“重围”,重新开辟出了一条道路。LlaMa 2将由通过其云服务分发,并在 Windows操作系统上运行。LlaMa 2相比LlaMa1在性能、训练数据、安全等方面升级明显,性能已经接近GPT3.5,对当前AI发展带来的影响不容忽视。、IBM等如今都部署了基于LlaMa 2的开源模型。
探索AI与应用生态结合,Meta在拥抱AI道路上越走越远。
Meta在2月2日的财报电话会议上给出了选择开源路线的理由,认为开源改善了Meta的模型,在战略上拥有诸多优势,且不会消除Meta产品的差异化。
首先,开源软件通常更安全、更可靠,同时由于社区的持续反馈、审查和开发,运行效率更高。而效率的提高和计算成本的降低也让包括Meta在内的每个人都受益;其次,开源软件通常会成为行业标准。Meta表示,当其他公司使用Meta的技术栈进行标准化构建时,Meta就能更容易将其他公司的创新整合到自己的产品中,这种快速学习和改进的能力是一个巨大的优势;最后,开源在开发者和研究人员中非常受欢迎,这有助于Meta招募到最好的人才。
同时,Meta再次强调其掌握独特的数据,并且构建了独特的产品集成,所以提供像LlaMa这样的开源基础设施并不会削弱Meta的主要优势,Meta也会将其作为前进的正确途径。
Meta还表示,LlaMa 3正在训练当中,近期也会陆续推出Meta AI、AI Studio以及搭载AI功能的Quest3及智能眼镜等toC产品。
据市场消息,Meta今年还计划部署自研定制芯片。这款芯片将产自Meta的第二代内部芯片生产线,于2024年投产,能有助于减少对占据市场主导地位的旗下昂贵的重度依赖。同时,在Meta计划推出新的人工智能产品之际,自研芯片能够控制与人工智能训练等相关的成本。
分析师认为,Meta2024年AI产品化落地值得期待。