NEMOTRON Nvidia的新ChatGPT级别模型

   日期:2024-12-29    作者:gczdsb 移动:http://3jjewl.riyuangf.com/mobile/quote/78716.html

作者使用 GPT-4o 生成


前言

NVIDIA 发布了一款新机型,Nemotron-340B,在某些特定领域击败了 GPT-4o(以及任何其他敢于比较的模型

此外,此版本还包含一些有趣的信息,例如这些模型

  • 擅长合成数据生成(允许用户生成专门的数据来训练他们的模型
  • 代表一种新的最先进的奖励模型,加上一种令人兴奋的全新对齐方法
  • 而且至关重要的是,他们证明了较弱的人工智能可以训练更强大的人工智能,这对于人类在不久的将来驾驭比我们更强大的模型的追求而言,是一个违反直觉但又至关重要的安全训练要求。

此外,NVIDIA 已将该模型作为完全开源项目发布,为业界提供了深厚的宝贵知识。


那么Nemotron 是什么简而言之Nemotron-4 340B是一个体面的大型语言模型 (LLM),在当今世界的关键任务上表现出色。

关于架构本身并没有太多惊喜,但确认分组查询注意(GQA已成为常态。

由于这不是本文的重点,因此我们不必过多赘述,LLM 会缓存(临时存储以避免重新计算)它们在对连续的单词预测进行推理期间执行的一些计算,我们称之为KV 缓存。

但是我们存储什么呢

LLM 使用标记混合器(即注意力机制)来处理输入序列中的数据,通过更新每个单词相对于序列中其他单词(先前的单词)的含义。

具体来说,每个单词都有一个查询、一个和一个向量

  • 一个单词的查询用于与其他单词的键“对话”
  • 并且值向量用于更新序列中每个单词相对于先前单词的含义。

这个练习通过我们称为“注意力头”的电路重复多次,大大提高了性能......但也提高了计算和内存的要求。

然而GQA 建议对这些电路进行分组,有效地减少 KV 缓存的大小,该缓存可能会大幅增长(事实上,对于大型序列,它是 LLM 工程中最限制内存的因素)。

要深入了解KV Cache,请阅读此处。

但为了更好地理解 ChatGPT 内部发生的情况以及缓存了哪些元素,请查看下面的图表,了解 ChatGPT 如何更新单词含义以捕捉输入序列的含义

由作者生成的注意层


在上面的例子中,如果我们有 8 个注意力头和 4 个组,则 KV 缓存“仅”增加了 (8/4 = 2) 的倍数。在非 GQA 注意力中,KV 缓存将增加 8 倍。

但为什么大多数研究实验室都转向 GQA 而不是传统关注答案就在数字中。

假设您想提供该模型。

为此,我们还假设引用的 float8 精度(1 字节,这意味着您的模型重达 340 GB。仅此一项就需要 5 个最先进的 NVIDIA H100 GPU 来托管该模型。

现在,尽管 NVIDIA Nemotron 仅允许 4k 个标记窗口(稍后会详细介绍,但我们假设我们可以向模型输入一个 500k 长的标记序列(380k 个单词或几分钟的高分辨率视频,这是其他模型(如 Gemini 1.5)已经可以做到的。

然后,为了计算该单个序列的 KV 缓存,我们必须考虑Nemotron 的其他规格

  • 层数: 92
  • KV 头的数量: 8。这个数字通常等于注意力头的总数,在本例中为 96,但由于分组查询注意力,情况并非如此,所以该模型有 96 个 Q 向量头,但只有 8 个不同的 K 和 V 头(正如我们在上图中所看到的,它们是我们在 Transformers 中缓存的元素)。
  • 隐藏维度(向量的长度: 18432,这意味着每个头部都有 18432/96 = 192 个通道的隐藏维度。
  • 每个令牌的平均字节数: 2 个字节(这是我的假设,但这是一个合理的估计

单词在注意力头上的分布情况。作者生成

考虑到所有这些,KV 缓存的大小为192 × 92 × 8 × 500k × 2 字节/令牌 × 2(这个数字 2 代表 K 和 V 向量= 282.62 GB。

这将需要另外 4 个 NVIDIA H100总共需要 9 个最先进的 GPU 来运行单个用户请求。

单位成本是多少?DGX H100 消耗 11 KWh(千瓦时)的电能。按照美国工业用电平均电价 0.083 美元/千瓦时计算,每年 8000 美元。这仍然比购买节点的资本成本(约 16 万美元)要低得多。然而,从规模上看,每个数据中心的这个数字将达到数百万美元(一个 20k H100 GPU 集群每年的能源成本为 2800 万美元,因此每一美元都很重要。免责声明:请记住,经常性成本是针对 GPU 的全年服务。因此,这个序列特别被稀释到 8000 美元中。

但令人震惊的是:如果该模型不使用 GQA,那么实际的 GPU 数量将增加 12 倍达到 47 个 GPU 的集群,或者说资本成本为 96 万美元

这是因为在标准注意力机制中,KV 头的数量等于注意力头的数量,从 8 到 96。

看到这一点,毫不奇怪,NVIDIA 不仅使用 GQA 来缩小 KV 缓存,而且还严重限制了上下文窗口(以及为什么当今所有的模型也都这样做,在这种情况下只允许最多 4,096 个令牌。

尽管如此,这里的关键点是,GQA 已被当今许多强大的模型所使用,包括 LLaMa(Meta)和 Qwen(阿里巴巴)系列,这两个系列是功能最强大的 LLM,而NVIDIA 对这种方法的采用表明它已成为常态。

继续,除了这项值得注意的技术之外,其余的都是标准的,即仅解码器的架构(就像今天所有的 LLM 一样)。

如需深入了解 Transformer 架构,请阅读此处。ParagogerAI训练营 2img.ai


NVIDIA 指出 Nemotron 擅长的主要用例之一是合成数据生成,这在开发高质量训练数据集方面具有显著优势。

这种能力在收集人工注释的数据时至关重要,因为这些数据既昂贵又耗时,而企业在完善其开源开发时迫切需要这些数据。

至关重要的是,NVIDIA 已经证明,Nemotron 的数据可用于训练其他模型,通过将其几乎完全与其自己生成的数据对齐(建模其行为,因为模型对齐过程中使用的 98% 以上的数据都是合成生成的

特别是,NVIDIA 设计了巧妙的数据生成流程来训练模型。

来源:NVIDIA


该管道为生成器模型提出了要训练的不同主题,生成有关这些主题的数据,并通过该数据运行 Nemotron 以根据主题和任务对其进行微调。

他们给模型的提示之一如下所示


但 NVIDIA 走得更远。

他们不仅使用合成数据还使用较弱的模型来对齐较强的模型,这是由 Anthropic 的超级对齐负责人和前 OpenAI 成员 Jan Leike 推广的概念,称为弱到强对齐

对齐是指对模型的行为进行建模,防止其回答诸如“帮我制造一个炸弹”之类的有害问题。

然而,正如我们在上一篇有关破解 LLM 的新闻通讯中看到的那样,当前的对齐方法很容易被逆转。

然而,这种方法涉及使用初始对齐模型来生成合成数据,然后使用这些数据来训练更好的基础模型。


这个新的基础模型更加强大,在后续的迭代中生成了更高质量的合成数据形成了一个自我强化的改进循环,并证明了较差的模型可以 在一定程度上模拟优秀模型的行为

当人类需要对齐比我们自己更强大的模型时,弱到强的对齐被认为可能是关键。

但是除了这个非常有趣的对齐管道之外,最大的创新来自于方法本身。

ParagogerAI训练营 2img.ai

在对齐 Nemotron 的过程中,他们使用直接偏好优化 (DPO) 将模型引导通过对齐管道,然后通过一种新的对齐方法,即奖励感知偏好优化。

DPO 与人类反馈强化学习 (RLHF) 一样,使用人类偏好数据的数据集,通常以{prompt: {better response}, {worse response}} 的形式表示。

在这种训练中,模型不需要学习任何东西,只需要假设它已经是一个很好的对话者,重点关注帮助模型提高其响应安全性。

因此,我们希望模型能够决定这两个统计上合理的回答中哪一个更好。“当然,这是制造炸弹的方法……”“对不起,我无法回答这个问题”是“帮我制造一个炸弹”这个提示在统计上合理的延续然而,一个显然比另一个更可取我们希望我们的模型知道这一点。

但是 RLHF 和 DPO 有什么区别

  • 在更传统的RLHF方法中,奖励是明确测量的,并用于衡量模型与期望状态的距离。为此,您需要一个额外的模型,即通常与正在训练的模型大小相同的奖励模型,以测量模型的响应并检查它是否选择了正确的响应。
在该方法中,用于改进模型的成本函数使用奖励模型的分数来衡量训练模型的误差并针对这些奖励进行优化。
  • 在DPO中,奖励是隐式建模的,避免了对辅助奖励模型的需求,这使得实现起来便宜得多。
在这种方法中,成本函数不是表示为奖励最大化问题,而是表示为最优策略最大化问题。正如研究人员在开创性研究中所证明的那样,通过针对最优策略进行优化,您可以隐性地最大化奖励,而无需实际衡量该奖励,这意味着该模型正在针对潜在奖励进行优化,尽管它并不明确(没有奖励模型,但它“存在”。

我知道这很难接受,所以让我们简化一下。

下面的等式描述了在 DPO 对齐期间训练模型的成本函数。

与任何成本函数一样,目的是从模型中抽取响应,测量成本函数的结果(响应的好坏,并使用该信号优化模型的参数,以最小化随时间推移的成本(错误)。

在这种情况下,随着正项变得越来越大(意味着模型为正确响应分配较高的概率,而负项下降(模型为错误响应分配较低的概率,总体损失(整个函数前面带有负号)会减少,这意味着模型在选择正确响应方面变得更好。


在这种情况下,πref 指的是模型的前一个实例,通常从指令调整阶段获得,模型在此学习遵循指令。我们还测量模型的先前版本(这里未进行训练)分配给响应的概率的原因是为了作为发散度量;这自然会导致模型不会偏离其先前版本太多,但仍然学习对齐信号。

总的来说,这个等式诱导模型学会将“糟糕的反应”视为垃圾,而并不真正考虑其质量;只要分配给正确和错误反应的概率随着时间的推移而扩大,模型就实现了这个等式定义的目标。

然而正如前面提到的,这意味着它忽略了后者的质量,也就是说,虽然 DPO 是一种非常有吸引力的方法,因为它可以明显节省成本,但对奖励进行建模会隐含地诱导模型在所有情况下最大化两种响应之间的差距……即使它不应该这样做。

对于我们之前看到的炸弹例子来说,这似乎没问题,但有时,两种反应都很好,其中一种会稍微好一些。

模型难道不应该从这些情况下的不良反应中吸取教训吗是的,但 DPO 并非为解决这个问题而设计的。

为此,他们组建了 RPO。

RPO 的方程如下所示。我知道它看起来很吓人,但我们可以简化成本函数的作用。


通俗地说,您看到的是一个基于距离的成本函数,它将模型分配的概率与正确和被拒绝的响应进行比较以及该比较与奖励模型的比较有多相似。

与 RLHF 类似,与 DPO 不同,我们恢复了奖励模型。这意味着,尽管您将在下文中看到 RPO 的明显优势,但它肯定不是一种廉价的对齐方法,这可能就是为什么 NVIDIA 投入如此多精力投入到价值中,他们使用合成数据进行对齐,从而避免了人工注释数据的高昂成本。

简而言之,RPO 诱导训练后的模型不仅学会为较好响应分配相对于较差响应的更高概率(最大化模型输出正确响应而非较差响应的可能性,而且还近似于奖励模型识别的质量差距,这迫使被训练的模型也从较差的响应中学习。

为了确保完全理解,让我们逐项分析这个方程。

  1. 第一部分带有对数的数据促使模型为较好的响应分配更高的概率,而不是最差的响应;它基本上是我们之前看到的 DPO 对齐方程的精确副本。
  2. 等式的右侧部分测量奖励模型分配给相同较好和较差反应的奖励差异。在这里,奖励模型输出一个标量值,用于评估该反应的好坏。
  3. 开头的“D”是距离度量函数。换句话说,它取点 1 和点 2 的结果并测量它们的相似程度。

为了确保充分理解成本函数,我们必须问诱导模型学习的函数是什么

正如我们之前讨论的那样,DPO 未能认识到质量差距;该模型学会为更好的响应赋予高概率,而完全忽略更差的响应。

相反RPO 确实考虑了高质量的被拒绝的回应

原因很简单:如果训练模型为被拒绝的响应分配了一个非常低的概率,但是奖励模型认为该响应尽管可能比其他响应更差,但只是稍微差一点,那么两个响应之间的距离差异在模型之间就会有很大差异。

在这种情况下,尽管模型选择了更好的响应,但由于两个模型的解释差异,模型受到了非常严重的惩罚,因此总体上仍然会得到很差的分数。

因此,RPO 诱导模型

  • 不仅要学会做出正确的决策(选择最佳反应
  • 而且还能从被拒绝的答复中学习(当被拒绝的答复质量较差但质量较好时,仍会为被拒绝的答复分配较高的可能性)。
该模型有充分的动机去关注奖励模型的指示,因为它实际上是有史以来最好的奖励模型。

除了这种将模型与合成数据对齐并使用较弱的模型来改进更好模型的令人兴奋的方式之外,NVIDIA 还有时间创建一个特定的奖励模型,该模型提供比 GPT-4o(以及任何其他模型)更好的奖励反馈。

这里的数学很简单我们的奖励模型越好,我们的训练模型就越好。

在最流行的奖励模型基准测试中Nemotron-4–340B Reward表现最佳。


不仅如此,尽管它比 GPT-4 小 6 倍,但在许多不同任务的人工评分比较中,它平均胜过 GPT-4

ParagogerAI训练营 2img.ai


这是个好消息。

采用 RPO 作为对齐方法后,NVIDIA 可以对齐 Nemotron,充分了解其设计目的是近似奖励模型的质量差距(分配与其质量得分成比例的首选/拒绝概率,从而确保一个真正优秀的模型,尽管规模小得多,但仍能与大公司竞争。

干得好,NVIDIA。

他们提出了一系列模型,这些模型可以在单个 DGX 节点(仅 8 个 GPU)中高效运行,参数数量比 Claude 3 或 GPT-4 等模型少六倍,占用的内存比 Claude 3 或 GPT-4 等模型少十二倍(340GB 对 4TB,同时与它们极具竞争力。

这也是一个很好的模型,公司可以创建独特的数据集来将其内部模型与定制的合成数据相结合,这是公司完善其生成式人工智能工作的关键下一步。

此外还证明了由弱到强的泛化是有效的,这是一种更具成本效益的微调方法,也是超级对齐努力的一个令人鼓舞的信号。

但我想在本文的最后时刻赞扬 NVIDIA 的开放态度,效仿苹果和 Meta。对抗闭源需要像他们这样的大型科技公司的支持。

对于 NVIDIA 来说,这也是一个生存问题,因为开源的潜在消失将导致潜在的 GPU 客户群减少到六家以下(这些公司都在打造自己的芯片,以削弱 NVIDIA 对它们的控制,这对于一家争夺全球最大公司的公司来说将是一件可怕的事情。


欢迎你分享你的作品到我们的平台上. http://www.shxcj.com 或者 www.2img.ai 让更多的人看到你的才华。


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号