26岁OpenAI举报人疑自杀，死前揭ChatGPT训练黑幕。

26岁OpenAI举报人疑自杀，死前揭ChatGPT训练黑幕。

2024-12-26 22:04

26岁的OpenAI吹哨人，在发出公开指控不到三个月，被发现死在自己的公寓中。法医认定，死因为自杀。那么，他在死前两个月发表的一篇博文中，都说了什么？

26岁的OpenAI吹哨人在他去世前两个月发表了一篇博文，这篇博文内容至关重要。然而，由于他的突然离世，我们无法得知他在博文中具体说了什么。法医认定他的死因为自杀，这使得我们更加无法得知他在博文中的观点和指控。因此，我们只能遗憾地说，他的博文内容无法被揭示。

就在刚刚，消息曝出：OpenAI的举报者在他的家中去世。

Suchir Balaji，曾在OpenAI工作四年，指控公司侵犯版权的员工，上个月底在旧金山的公寓中被发现死亡，年仅26岁。

旧金山警方表示，11月26日下午1时许，他们接到了一通要求查看Balaji的安全状况的电话，但在到达后却发现他已经去世。

这位吹哨人手中掌握的信息，原本将在针对OpenAI的诉讼中发挥至关重要的作用。

如今，他却意外离世。

根据法医办公室的认定，经调查确认死者是自杀身亡。警方也表示，在调查过程中没有发现任何与他杀相关的证据。

他的X上的最后一篇帖子，正是介绍自己对于OpenAI训练ChatGPT是否违反法律的思考和分析。

他还强调，希望这不要被误解为对ChatGPT或OpenAI本身的批评。

如今，在这篇帖子下，许多网友们纷纷发出悼念的声音。

Suchir Blaji的朋友也表示，他人十分聪明，绝不像是会自杀的人。

吹哨人发出警告：OpenAI在训练模型时违反了原则

Suchir Balaji曾积极参与OpenAI的ChatGPT项目，并参与了底层模型的开发工作。

今年10月发表的一篇博文中他指出，公司在使用新闻和其他网站的信息训练其人工智能模型时，违反了「合理使用」原则。

博文地址：https://suchir.net/fair_use.html

然而，就在公开指控OpenAI违反美国版权法三个月之后，他就去世了。

为什么11月底的事情12月中旬才被公之于众，网友们也表示怀疑

他们认为，OpenAI被指控未经授权使用了受版权保护的材料来训练AI模型，这使得公司的估值攀升至1500亿美元以上，但却没有与其他人分享这个成果。

为此，《水星新闻报》、《纽约时报》等多家报社，在过去一年内对OpenAI提起了诉讼。

「如果你同意我的观点，你就必须辞职离开公司。这对整个互联网生态系统而言，都不是一个可持续的模式。」

一个理想主义者的逝去

Balaji在加州长大，十几岁时，他发现了一则关于DeepMind让人工智能自己玩Atari游戏的报道，对此产生了强烈的向往。

高中毕业后的间隔年，Balaji开始探索DeepMind背后的关键理念——神经网络数学系统。

Balaji本科就读于加州大学伯克利分校（UC Berkeley），主修计算机科学。在大学期间，他坚信人工智能（AI）能够为社会带来巨大的好处，例如治愈疾病和延缓衰老。他认为我们可以创造出一种科学家，来解决这些问题。

2020年，他和一批来自伯克利大学的毕业生们一起加入了OpenAI工作。

然而，在加入OpenAI并担任研究员两年后，他的想法开始发生变化。

在那里，他被分配的任务是为GPT-4收集互联网数据，这个神经网络花了几个月的时间，分析了互联网上几乎所有英语文本。

Balaji认为，这种做法违反了美国关于已发表作品的「合理使用」法律。今年10月底，他在个人网站上发布一篇文章，详细阐述了这一观点。

目前没有任何已知因素，能够支持「ChatGPT对其训练数据的使用是合理的」。然而，需要指出的是，这些论点不仅适用于ChatGPT，还适用于其他各个领域的生成式AI产品。

根据《纽约时报》律师的说法，Balaji掌握着「独特的相关文件」，这些文件在纽约时报对OpenAI的诉讼中具有重要的价值。

在准备取证前，纽约时报提到，至少12人（大多数是OpenAI的前任或现任员工）掌握着与案件相关的有帮助的证据。

在过去一年中，OpenAI的估值已经翻了一倍，但新闻机构认为，该公司和微软抄袭和盗用了自己的文章，严重损害了它们的商业模式。

在过去的一年里，OpenAI的估值已经增长了一倍，达到了新的高度。然而，一些新闻机构声称，OpenAI和微软抄袭并盗用了他们的文章，这对他们的商业模式造成了严重的损害。

诉讼书指出——

而对于这些指控，OpenAI坚决否认了这些指控。他们强调，他们在训练大模型时遵守了所有合理使用法律规定。

为什么说ChatGPT没有「合理使用」数据

为什么OpenAI违反了「合理使用」法？Balaji在长篇博文中，详细阐述了这一问题的分析。

他引用了1976年《版权法》第107条中对「合理使用」的定义，这是指在符合法律规定的情况下，对受版权保护的作品进行合理的使用。

是否符合「合理使用」，应考虑的因素包括以下四条：

1. 使用的目的是否合法和正当。

2. 使用的性质是否非商业性。

3. 使用的数量是否合理。

4. 使用的效果是否对原作品产生不利影响。

（1）使用的目的和性质，包括该使用是否具有商业性质或是否用于非营利教育目的；（2）受版权保护作品的性质；（3）所使用部分相对于整个受版权保护作品的数量和实质性；（4）该使用对受版权保护作品的潜在市场或价值的影响。

按照4、1、2、3的顺序，Balaji进行了详细的论证。

因素（4）：对受版权保护作品的潜在市场影响

这一因素考虑的是某个作品对市场的潜在影响。也就是说，如果某个作品受到版权保护，那么其他人就不能随意复制、传播或者销售该作品，从而保护了原作者的权益。这种保护措施可以鼓励创作者创作更多优质作品，并且为他们提供了一种合理的收益方式。同时，版权保护也可以促进创意产业的发展，推动经济增长。

由于ChatGPT训练集对市场价值的影响，会因数据来源而异，而且由于其训练集并未公开，这个问题无法直接回答。

然而，一些研究可以用数字来衡量这个结果。

研究发现，ChatGPT的发布对在线知识社区Stack Overflow产生了影响，导致其访问量下降了约12%。

此外，ChatGPT发布后每个主题的提问数量也有所减少。

提问者的平均账户年龄也在ChatGPT发布后呈上升趋势，这表明新成员要么没有加入，要么正在离开社区。

提问者的平均账户年龄也在ChatGPT发布后呈上升趋势，这可能意味着新成员要么没有加入，要么正在离开社区。

而Stack Overflow，显然不是唯一受ChatGPT影响的网站。例如，作业帮助网站Chegg在报告ChatGPT对其增长的影响后，股价下跌了40%。

当然，OpenAI和谷歌这样的模型开发商，也和Stack Overflow、Reddit、美联社、News Corp等签订了数据许可协议，以获得合法使用这些平台上的数据的权限。

但签署了协议，数据的使用是否符合「合理使用」的标准呢？

总之，考虑到数据许可市场的存在，如果在没有获得类似许可协议的情况下使用受版权保护的数据进行训练，这将对市场利益造成损害，因为这将剥夺版权持有人的合法收入来源。

因素（1）：使用目的和性质，包括但不限于商业性质和教育目的

书评家可以在评论中引用某本书的片段，尽管这可能会对该书的市场价值造成损害，但这被认为是合理使用，因为书评和书籍本身没有替代或竞争关系。

这种替代使用和非替代使用之间的区别，源自1841年的「Folsom诉Marsh案」，这是一个确立合理使用原则的里程碑案例。

这种替代使用和非替代使用之间的区别，源自1841年的「Folsom诉Marsh案」，这是一个确立合理使用原则的重要案例。

问题来了——作为一款商业产品，ChatGPT是否与用于训练它的数据具有相似的用途？

显然，在这个过程中，ChatGPT创造了与原始内容形成直接竞争的替代品。

显然，在这个过程中，ChatGPT创造了与原始内容直接竞争的可替代产品。

比如，如果想知道「为什么在浮点数运算中，0.1+0.2=0.30000000000000004？」这种编程问题，就可以直接向ChatGPT（左）提问，而不必再去搜索Stack Overflow（右）。

因素（2）：受版权保护作品的性质

第二个因素是受版权保护作品的性质。这指的是作品的特点和属性，决定了它是否符合版权保护的标准。不同类型的作品可能具有不同的性质，从而影响它们是否受到版权保护。

这一因素，是各项标准中影响力最小的一个，因此不作详细讨论。

因素（3）：使用部分相对于整体受保护作品的数量及实质性

考虑这一因素，可以有两种解释——

There can be two possible explanations for considering this factor.

（1）模型的训练输入包含了受版权保护数据的完整副本，因此「使用量」实际上是整个受版权保护作品。这不利于「合理使用」。

（1）模型的训练输入包含了受版权保护数据的完整副本，因此「使用量」实际上是指使用了整个受版权保护作品的数量。这种做法不符合「合理使用」的原则。

（2）模型的输出内容几乎不会直接复制受版权保护的数据，因此「使用量」可以视为非常少。这种观点支持「合理使用」。

哪一种更符合现实？

在信息论中，最基本的计量单位是比特（bit），代表着一个是/否的二元选择。

在一个分布中，平均信息量称为熵，同样以比特为单位（根据香农的研究，英文文本的熵值约在每个字符0.6至1.3比特之间）。

两个分布之间共享的信息量称为互信息（MI），其计算公式为：

在公式中，X和Y表示随机变量，H(X)是X的边际熵，H(X|Y)是在已知Y的情况下X的条件熵。如果将X视为原创作品，Y视为其衍生作品，那么互信息I(X;Y)就表示创作Y时借鉴了多少X中的信息。

在公式中，X和Y分别代表随机变量。H(X)表示X的边际熵，即X的不确定性的度量。H(X|Y)表示在已知Y的情况下X的条件熵，即在已知Y的条件下，X的不确定性的度量。如果我们将X看作是原创作品，Y看作是其衍生作品，那么互信息I(X;Y)就表示在创作Y时从X中借鉴了多少信息。互信息衡量了X和Y之间的相关性，即Y中包含了多少来自X的信息。

对于因素3，重点关注的是互信息相对于原创作品信息量的比例，即相对互信息（RMI），定义如下：

相对互信息（RMI）是指互信息与原创作品信息量之间的比例。互信息是衡量两个随机变量之间的相关性的指标，而原创作品信息量是指原创作品所包含的信息的总量。通过计算互信息与原创作品信息量的比例，我们可以得到相对互信息。

此概念可用简单的视觉模型来理解：如果用红色圆圈代表原创作品中的信息，蓝色圆圈代表新作品中的信息，那么相对互信息就是两个圆圈重叠部分与红色圆圈面积的比值：

相对互信息可以通过比较原创作品和新作品中的信息来衡量。假设原创作品中有一些特定的信息，而新作品中也包含了这些信息，那么这些信息的重叠部分就是相对互信息。相对互信息的值越大，表示新作品中包含了更多原创作品的信息。

在生成式人工智能（AI）领域中，我们特别关注相对互信息（RMI）。在这里，X代表潜在的训练数据集，Y代表模型生成的输出集合，而f则代表模型的训练过程以及从生成模型中进行采样的过程：

在实践中，计算给定训练生成模型输出的信息熵H(Y|X)相对来说比较容易。但是要估算在所有可能的训练数据集上的模型输出总体信息熵H(Y)则非常困难。

关于H(X)——训练数据分布的真实信息熵——尽管计算困难，但仍然可以进行计算。

可以作出一个合理假设：条件熵H(Y)大于等于给定条件下的熵H(X)。

这个假设是有依据的，因为完美拟合训练分布的生成模型会呈现H(Y) = H(X)的特征，同样，过度拟合并且记忆训练数据的模型也是如此。

这个假设是有依据的，因为当生成模型完美拟合训练分布时，它的预测熵（H(Y)）将等于输入特征的熵（H(X)）。同样地，当模型过度拟合并且过度记忆训练数据时，也会呈现相同的特征。

而对于欠拟合的生成模型，可能会引入额外的噪声，导致生成的数据的不确定性大于原始数据的不确定性。在生成数据的不确定性大于或等于原始数据的不确定性的条件下，可以为RMI确定一个下限：

这个下限背后的基本原理是：输出的信息熵越低，就越可能包含来自模型训练数据的信息。

The basic principle behind this lower bound is that the lower the output's information entropy, the more likely it is to contain information from the model training data.

在极端情况下，就会导致「内容重复输出」的问题，即模型会以确定性的方式，输出训练数据中的片段。

在极端情况下，模型会出现「内容重复输出」的情况，这意味着模型会以确定性的方式，重复输出训练数据中的片段。

即使在不确定性的输出中，训练数据的信息仍然可能以某种程度被利用——这些信息可能会被分散地融入到整个输出内容中，而不是简单地直接复制。

从理论上讲，模型输出的信息熵并不需要低于原始数据的真实信息熵，但在实际开发中，模型开发者往往倾向于选择让输出熵更低的训练和部署方法。

从理论上讲，模型输出的信息熵并不需要低于原始数据的真实信息熵，但在实际开发中，模型开发者往往倾向于选择让输出熵更低的训练和部署方法。这是因为较低的输出熵意味着模型能够提供更准确和一致的预测结果，从而提高模型的可靠性和可解释性。

这主要是因为，熵值高的输出在采样过程中会包含更多随机性，容易导致内容缺乏连贯性或产生虚假信息，也就是「幻觉」。

这主要是因为，当输出的熵值较高时，在采样过程中会包含更多的随机性。这会导致内容缺乏连贯性或产生虚假信息，也就是所谓的「幻觉」。

如何降低信息熵？

数据重复现象

在模型训练过程中，重复使用相同的数据样本让模型进行多次学习是一种常见的做法。

但如果重复次数过多，模型就会完整地记下这些数据样本，并在输出时简单地重复这些内容。

但是，如果重复次数过多，模型会完全记录这些数据样本，并在输出时简单地重复这些内容。

举个例子，我们首先在莎士比亚作品集的一部分内容上对GPT-2进行微调。然后，我们使用不同的颜色来区分每个token的信息熵值，其中红色表示较高的随机性，绿色表示较高的确定性。

当仅用数据样本训练一次时，模型对「First Citizen」（第一公民）这一提示的补全内容虽然不够连贯，但显示出高熵值和创新性。

当仅用数据样本训练一次时，模型对「First Citizen」（第一公民）这一提示的补全内容虽然不够连贯，但显示出高熵值和创新性。这表明模型在处理这个提示时产生了多样化和新颖的输出。

然而，在进行了十次重复训练之后，模型完全记住了《科利奥兰纳斯》剧本的开头部分，并且在接收到提示后机械地重复了这些内容。

在进行五次重复训练时，模型展现出了一种介于简单重复和创造性生成之间的状态——输出内容中既包含了新创作的部分，也保留了记忆中的内容。

假设英语文本的真实熵值约为每字符0.95比特，那么这些输出中就有大约0个字符。

的内容是来自训练数据集。

强化学习机制

ChatGPT产生低熵输出的主要原因在于，它通过强化学习进行后训练，特别是基于人类反馈的强化学习（RLHF）。

RLHF（Reinforcement Learning with Human Feedback）倾向于降低模型的熵值，因为其主要目标之一是降低「幻觉」的发生率，而这种「幻觉」通常源于采样过程中的随机性。

从理论上讲，如果一个模型的熵值为零，意味着它可以完全避免产生「幻觉」，但实际上这样的模型就变成了一个简单的训练数据集检索工具，而不是一个真正的生成模型。

下面是几个向ChatGPT提出查询的示例，以及对应输出token的熵值：

根据

根据估计，这些输出中大约有73%到94%的内容与训练数据集中的信息相对应。

如果考虑RLHF的影响（导致无法确定结果）

根据我的估计，这个值可能会偏高，但是我们仍然可以清楚地看到熵值与训练数据使用量之间的相关性。

例如，即使不了解ChatGPT的训练数据集，我们也会发现它讲的笑话全是靠记忆，因为这些内容几乎都是以确定性方式生成的。

例如，即使没有对ChatGPT的训练数据集有详细了解，我们也可以观察到它所讲的笑话主要依赖于记忆，因为这些笑话几乎都是以确定性的方式生成的。

这种分析方法虽然比较简单，但它揭示了训练数据集中的版权内容对模型输出的影响。

但更重要的是，这种影响具有长远的影响力。即使对因素（3）进行更宽松的解释，也难以支持「合理使用」的观点。

最终，Suchir Balaji得出结论：从这4个因素来看，它们几乎都不支持「ChatGPT在合理使用训练数据」。

最终，Suchir Balaji得出结论：根据这4个因素的分析，几乎没有证据支持「ChatGPT在合理使用训练数据」的观点。

10月23日，Balaji发布了这篇博客。