分享好友 最新动态首页 最新动态分类 切换频道
Adobe&MIT-新研究:AI-视频边生成边播放-首帧延迟-1.3-秒、生成速度-9.4-帧-/-秒
2024-12-27 05:11

AI 生成视频,边生成边实时播放,再不用等了!Adobe 与 MIT 联手推出自回归实时视频生成技术 ——CausVid。

思路就像从下载整部电影到直接观看流媒体的转变,在模型生成首帧画面后,视频便可以即时播放,后续内容则动态生成并无缝衔接。

如果你用过视频生成模型,一定对漫长的等待时间记忆深刻,生成一段 10 秒的视频,往往需要等待好几分钟才可以开始观看。

研究团队表示,这一延迟的根本原因在于:传统视频生成模型普遍采用的双向注意力机制,每一帧都需要参考前后帧的信息。

这就像写故事时必须先构思好整个剧情的所有细节才能动笔,在完整视频生成完毕前,你看不到任何画面。

为此,他们提出了一种全新的解决方案,通过蒸馏预训练的双向扩散模型(DiT),构建自回归生成模型。

实验中,CausVid 基于自回归生成的特性,无需额外训练就能支持多种应用,生成速度和质量均显著超越现有方法。

研究团队还表示将很快开源基于开源模型的实现代码。

用双向教师监督单向自回归学生模型

如前所述,研究团队通过蒸馏预训练的双向扩散模型(DiT),构建自回归生成模型。

为了进一步提速实现实时视频生成,作者通过分布匹配蒸馏(DMD)将生成步骤从 50 步缩减到仅需 4 步。

DMD 是一种扩散模型蒸馏技术,将多步扩散模型转换为快速的单步生成器。DMD 此前已在图像生成中取得成功,Adobe Firefly 文生图的快速模式就是基于此技术。

本次研究团队将其创新性地应用到视频扩散模型中,实现了显著加速。

然而,自回归模型有一个核心难题 —— 误差累积。

每一帧视频都基于之前的帧生成,早期生成的任何细微缺陷都会被放大,导致生成的视频逐渐偏离预期轨迹。

为了解决这一问题,团队提出了非对称蒸馏策略。具体来说:

引入一个拥有未来信息的双向教师模型,在蒸馏训练阶段指导自回归的单向学生模型。这种教师-学生结构允许模型在生成未来帧时具备更强的精确度。

使用双向教师模型生成的的噪声-数据配对来预训练单向学生模型,提升其后蒸馏训练过程的稳定性。

在训练过程中,针对不同时间点的视频帧施加不同强度的噪声,这一策略使模型能够在测试时基于干净的已生成帧对当前帧进行去噪。

通过这种创新性的非对称蒸馏方法,CausVid 显著减少了自回归模型的误差累积问题,并生成了更高质量的视频内容。

这种非对称蒸馏形式中,学生模型和教师模型使用了不同的架构,而这只有在 DMD 风格的蒸馏中才可行。其他方法,例如渐进式蒸馏(Progressive Distillation)或一致性模型(Consistency Distillation),都要求学生模型和教师模型使用相同的架构。

下面是自回归扩散视频模型的误差累积示例(左图)和 CausVid 结果(右图)对比:

实验效果如何?

实验中,CausVid 表现惊艳:

    首帧生成延迟从 3.5 分钟降至 1.3 秒,提速 170 倍

    生成速度从 0.6 帧 / 秒提升至 9.4 帧 / 秒,提升 16 倍

    生成质量经 VBench 和用户调查验证,优于主流模型例如 Meta 的 MovieGen 和智谱的 CogVideoX

    得益于单向注意力机制,CausVid 完全支持在大语言模型中广泛应用的 KV 缓存推理技术,从而显著提升了生成效率。结合滑动窗口机制,CausVid 突破了传统模型的长度限制。

    尽管训练阶段仅接触过 10 秒的视频,CausVid 依然能够生成长达 30 秒甚至更长的视频,其生成速度和质量均显著超越现有方法。

    基于自回归生成的特性,CausVid 无需额外训练就能支持多种应用:

      图片动画化:将静态图片自然转化为流畅视频,赋予画面生命力。

      实时视频风格转换:如将 Minecraft 游戏画面即时转换为真实场景。这一技术为游戏渲染带来全新思路:未来可能只需渲染基础 3D 几何信息,由 AI 实时补充纹理和光影

      交互式剧情生成:用户通过调整提示词,实时引导视频剧情发展,带来全新的创作体验。

最新文章
购买商标“蚝功坊”29类食品详细指南
  随着市场对品牌认知度的提升,商标作为企业的重要资产之一,其价值日益凸显。对于那些想要进入特定市场的创业者或者小企业主来说,直接购买一个已经注册并具有一定知名度的商标,无疑是一条快速启动业务的有效途径。在众多可选的类别中
淘宝秒杀是什么意思?淘宝秒杀活动如何设置?(淘宝秒杀是什么活动)
秒杀活动几乎在任何电商平台都是常见的,秒杀商品一般价格都很低,不过抢到的机会却比较少,可以说这是考验你网速的,那淘宝秒杀是什么意思?接下来我们就来给大家讲解一下这方面的内容。一、淘宝秒杀是什么意思?秒杀就是网络卖家发布一些超
企业产品营销推广策划案例
企业产品营销推广策划案例(精选3篇)  一、公司简介  本公司以“与绿色同行,与自然为本”为企业宗旨,号召广大人民热爱大自然,保护大自然。  本公司以生产绿色产品为主(包括绿色食品,绿色日用品,等绿色系列品),创建于20__年1月
申请一个微信小程序有哪些需要注意的事项
相信有使用微信的用户,早就在微信平台上面接触了一种,不需要下载安装,只需要打开就能够使用的软件。这些软件有之前很火跳一跳、斗地主、弹球等等,其实这些软件都叫做微信小程序。不少企业、商家、个人用户
精选联盟是什么?一篇文章带你读懂
随着互联网时代的到来,抖音小店的经营模式也越来越受欢迎,伴随而来的是越来越多的人开始关注精选联盟的问题。那么,到底什么是精选联盟?怎么开通精选联盟?开通精选联盟的优势又在哪里?本文将会给大家一一解答上述问题,以及分享一些“
校园外卖小程序的功能介绍(校园跑腿小程序制作)
世界那么大,机会每天都有,但是我们需要判断校园外卖小程序的功能介绍学习到位没有,才能更好的进行下一步。校园外卖小程序的功能介绍一、便捷的点餐流程校园外卖小程序的最大特点之一是其便捷的点餐流程。学生只需在小程序首页选择自己所
今年,你不应错过的五本书
​直接订阅商论,双语对照阅读更多书评文章!全世界应对新冠的过程推动了生化领域的爆炸式发展,《密码破解者》借由去年诺贝尔化学奖得主之一杜德纳的故事,梳理了基因科学领域内最新的发展脉络,让我们对未来与数字科技并驾齐驱的生物科技
逆强化学习 (Inverse Reinforcement Learning) 原理与代码实例讲解
关键词:逆强化学习,决策模型,最优策略,模型驱动,反演学习 1.1 问题由来 强化学习(Reinforcement Learning, RL)是机器学习领域的重要分支,主要用于学习智能体(agent)如何在环境中通过试错获得最
云电脑是什么_手机电脑里的那种小姐姐,以后彻底没了|手机|安卓系统|电脑|云手机|云电脑...
  以后,咱们电脑和手机里的小姐姐可能要消失咯。  欸嘿,听起来是有点吓人,这里的消失并不是彻底消失,只是换个地方存放。  还是很懵逼?咱们接着往下看。  「云计算」大家听说过吧,经历了
网络营销巨头崛起:哪十大平台最受追捧-用户需求下的流量宝藏探秘!
网络营销巨头崛起:哪十大平台最受追捧?随着互联网的迅猛发展,网络营销已成为现代商业领域不可或缺的一部分。众多平台在激烈的市场竞争中脱颖而出,成为网络营销的巨头。那么,究竟哪十大平台最受追捧呢?本文将为您探秘用户需求下的流量
相关文章
推荐文章
发表评论
0评