OpenAI「大管家」8000 字深度对话：生成式 AI 的下一步是什么？

OpenAI「大管家」8000 字深度对话：生成式 AI 的下一步是什么？

2024-12-26 10:15

英伟达 GTC 大会第二天，OpenAI 首席运营官 Brad LightCap 与 NVIDIA 企业计算副总裁 Manuvir Das 进行了一场名为「What』s Next in Generative AI」（生成式 AI 的下一步是什么？）的深度讨论。

事实上，随着一举一动越发被监管和外界关注，最近 Altman 的公开发言越来越公关化、套路化。相比之下，Lightcap 的这场对谈更加务实，也分享了更多干货。

在这场近 50 分钟的对话中，LightCap 讲到了全球企业客户使用 GPT 的共性问题，具体地给出对中小企业部署 AI 战略的建议，比如「从有限的问题开始」「让每个员工平等地有机会自由使用 GPT 是最好的方法」「GPTs 和定制化模型怎么选？」「从人力资源的角度考虑部署 AI」……

他提到 OpenAI 的最终愿景，这项技术最终的使命是什么。OpenAI 怎么看待自己在大众消费者、开发者和企业中间不同的角色。他还透露了 openAI 接下来的部分计划，包括模型能力和应用团队。

这位 COO 是 OpenAI 名副其实的「大管家」。在开场，Manuvir Das 介绍说，「Brad Lightcap 是 Sam Altman 的秘密武器，是他非常依赖的人。」从 Brad LightCap 的履历来看，他对 OpenAI 的业务和战略有相当的发言权。他出生于 1991 年，毕业于杜克大学，16 年到 18 年在 YC（Y Combinator 美国著名创业孵化器）做人工智能和机器学习领域的投资人。18 年底开始任职 OpenAI 的 CFO（首席财务官）。2020 年，Brad LightCap 晋升为 COO（首席运营官），负责 OpenAI 商业战略，管理财务、法务、人事、应用 AI 以及创业基金。

以下是对话实录，由极客公园整理：

Manuvir Das：告诉我们一些关于你在 Open AI 的角色，你日常的工作内容，以及有什么事情让你夜不能寐？

Brad Lightcap：这是我第一次参加 GTC，可以看看明年我们是否会回来，会带来什么。

OpenAI 首席运营官 Brad Lightcap |图片来源：NVIDIA GTC

我是 OpenAI 的 COO。我花费了很多时间思考，如何将我们在研究实验室中开发的技术让客户、用户和合作伙伴应用。我会说我的工作包括研究之外的一切。他们不让我碰电脑，我只用花钱。我大部分时间都花在与客户一起，努力弄清楚这项技术将如何融入世界。

让我夜不能寐的事情？除了 Slack，我没什么让我焦虑的事情。但是，我认为未来几年将会非常有趣。我认为我们仍处于技术发展曲线的平坦阶段，就像在比赛第一局边缘。随着技术发展，以及系统规模的扩大，会有很多可能性。

Manuvir Das：有趣的是，好像很多人认为 OpenAI 就是 ChatGPT，认为它是普通消费者去体验技术。但其实你们现在都与我们 NVIDIA 的大多数客户合作了。让他们打电话给 OpenAI 想用这项技术的事，你们是如何做到的？

Brad Lightcap：当我们推出ChatGPT时，使用量起飞了，显然它不是一个为企业推出的产品。我们花了大约六个月的时间试图弄清楚到底发生了什么，并试图确保我们有足够的 GPU。但是去年最后六个月，我们开始意识到企业中有一套合法且不断增长的应用程序在使用 GPT-4，这就是为什么我们推出了 ChatGPT 企业版。需求不仅来自中小型企业和市场，甚至来自财富 500 强。目前有超过 90% 的财富 500 强企业以某种形式使用 ChatGPT。我们正试图将他们全部使用企业版本，因为这对他们具有真正的吸引力和适用性，而且惊人地普适。据我们所知，每个智能部门都找到了使其有用的方法。其实我们不必构建很多真正的垂直应用，它是一种工作方式。如果你在财务团队，正在分析大量数据，进行对账和税务统计，你就可以将大型电子表格放入 ChatGPT，问它问题，要求对账，它就会这样做。它会把你的 HR 变成数据科学家。人们自然而然地找到了它的适用性，我们也正在努力构建更好的工具版本。

Manuvir Das：你很擅长让人们惊讶技术有多好。我们与企业交谈时，最受欢迎的是助手，就像拥有一个免费实习生。无论你在哪个岗位，你都可以构建一个聊天机器人来帮助你工作，你能得到 80% 的答案，这也是你们所看到的吗？

Brad Lightcap：是的，在一些关键用例，我们有一个团队手把手地帮助客户，负责「最后一公里」工程。我认为随着模型的改进，其中一些问题将逐渐消失。

我们看到了两件事情，一部分是解决模型能力的缺陷。另一部分是构建模型所需的所有上下文，以便能够完成工作。我不知道第二部分是否会消失，因为世界非常庞大和混乱。但我认为第一部分会逐渐消失，人们会真正感到模型加速。

Manuvir Das：你们有这些伟大的模型为 GPT 提供动力，OpenAI 构建了一个完整的工具生态系统。我很好奇，你们是否认为成为「开发人员使用技术的完整平台」，是你的使命和角色的一部分？还是你只是想成为服务或者模型的提供者？

Brad Lightcap：我认为两者都有。我们认为一切都只是对智能的提取，任何可以加速世界将技术和智能引每个角落的东西，我们都会去建造。一个我认为需要谦逊的部分，是你开始意识到世界有多大，有多少地方可以应用这项技术。我花费的每一分精力去思考是否应该构建第一方应用程序时，我都会提醒自己，有人比我们更关心这个特定的问题，而他们花费的精力是 99%。那么，我们要思考如何构建一个工具集，使他们能构建想要的技术、工具和应用。这些原始的基础层将使这些人受益，并创造出伟大的用户体验。

Manuvir Das：某种程度上，你们正在经历与 NVIDIA 相同的旅程，在过去几年，我们喜欢花时间让别人做到他们做不到的事情，因为责任感。你的工作是使工具尽可能好，尽可能广泛，让其他人围绕这个工具构建一切。我相信你也感受到了责任感，就像你说的，你可以影响整个世界，这是一件非常强大的事情。

Jensen 昨天在他的演讲中提到，在 100 万亿美元的行业中，科技界一直是成本导向的，「技术感冒」是很多公司离开的原因，一切都有预算，一切都关于如何降低成本。而新技术的颠覆性是因为它能使某些事更便宜。我相信我们所处的位置，是为公司创造新的机会、新的价值。你们有同样的看法吗？

Brad Lightcap：我认为对我们来说，令人兴奋的部分是从企业的角度来看，你会想到大型企业有多复杂，有多少低垂的果实可以说。对于这个特定的事情，我们实际上可以将工作流程的一部分外包给一个 AI，不仅可以在基线水平上完成，而且还会随着时间的推移做得更好，并逐渐掌握整个价值链。它只是让人们专注于其他事情。这就是我们在实践中看到的，你不必花两个小时坐在那里急到薅头发，试图把收入对账。AI 可以为你解决。你只是把问题扔到计算机上，突然间它就解决了。那个本来会花时间的人可以思考更重要的事情。我这么说是因为我也管理财务部门。

Manuvir Das：今天这个房间里有很多来自企业背景的人。我想很多人心中都有这个问题，你们的模型已经非常出色地吸收了世界和互联网上的各种知识。而每家公司也都有自己存储在各种地方的知识库。显然，不同的人对于如何利用这些数据有不同的角度和方法。我很好奇，对于 OpenAI 来说，你们如何让这些公司真正将他们拥有的所有数据纳入到流程中？

Brad Lightcap：这是我们被问最多的问题之一，也是目前最不成熟的问题，不过是可以预期的。我们正处于范式转变的早期阶段，已经有了挖掘和使用的核心技术，但将所有基础设施和系统与之挂钩还需要一些时间。

现在能看到的是，人们能够将有趣的数据库与明确的用例相结合，并让模型应用于这两者。你把这三个事情联系在一起，你就可以获得非常好的效果。

最近我们与 Klarna 合作开发的一个例子是客户支持用例。Klarna（财务公司）是一家非常具有前瞻性的 AI 公司。所以他们已经做了一段时间了，他们采取了正确的方法，即他们真正从一个非常具体的技术入手，限制问题在一个小范围内。在工作流非常小的一部分，有一个非常具体的数据集，一个非常具体的模型进行微调。他们先让这部分工作起来，从此扩展。

现在已经处理了大量的工作，节省了大量时间。这是我们的策略，不要试图吞下海洋，也不要缺乏野心。从有限的问题的开始，让它发挥作用，再扩大规模。

Manuvir Das：我看你在很多采访里提到这一点，你和一些公司开会时，他们似乎认为 GenAI 能够奇迹般地让公司变好，改变市场地位。但事实上，更好的做法是从具体的用例入手，从中获取价值，然后再推广。对那些刚开始尝试这项技术的公司，你有何建议？当然像英伟达这样，有上百个聊天机器人在内部运行于不同场景，已经是一种有机生长模式。但对于新手来说，你会建议他们先花些时间思考一下如何统筹规划，选择初始路线，还是广泛尝试，让其自然发展？

Brad Lightcap：在 2023 年我常对我们团队说，我们其实不是在做销售，我们是在做「心理治疗」。有的公司进来坐在我们会议室里，五分钟后就会开始倾诉他们担心的事情，比如「董事会希望我下个季度推出哪些新品，AI 能为我解决所有这些问题吗？」这时候我们得先聊一聊，给他们一点水喝，让他们冷静下来。

Manuvir Das：这个治疗环节你们收费吗？

Brad Lightcap：那倒没有哈哈。一旦我们进入真正的谈话部分，我们的观点是，真正地思考你的业务中哪些地方有机会让得到改进，比如运营方式、管理方式。对很多人来说，最糟糕的是客户反馈，我们听到的最频繁的抱怨是：「客户体验的品质糟糕、他们这上面花了很多钱但不奏效，这部分收到最多的客户投诉。」不过这也恰好是一个可以改善的地方。

NVIDIA 企业计算副总裁 Manuvir Das（左）与 OpenAI 首席运营官 Brad LightCap（右）|图片来源：NVIDIA GTC

Manuvir Das：这恰好是一个非常横向的领域对吗？因为它涉及许多行业。

Brad Lightcap：没错。所以我们倾向于推荐多管齐下的方法。首先要确定两三个确实存在棘手问题的领域，但同时又能对问题范围进行一定限制。以客户支持为例，这是一个由多任务组成的工作流程，涉及不同的人和不同的参与程度，有大量数据和上下文信息会有所帮助。所以你可以回顾之前提到的数据、流程和模型能力这三个层面，找出最初的实施方案是什么样的，然后从那里开始，不断扩展，再选择几个这样定制化、基于平台的项目来推进。

然后我们真正建议的是，回到 ChatGPT 本身，让你的整个团队接触它。这虽然不是我们去年年中真正积极思考的事情，但是随着我们部署 ChatGPT，和使用它的公司交谈，才意识到使工具民主化，给人们平等地接触和使用这项技术的机会是很重要的。

无需过于复杂，而是给人们一个机会说，「我知道我的工作内容，我可以用这个东西四处探索，我会想办法找到它的价值。」这会非常自然地发生。公司有时会过于追求规范的 AI 战略，比如做专属聊天机器人并大规模推广。但我认为至少目前，90% 的价值都来自于简单地让员工接触和使用这些工具，而不必过多思考。

Manuvir Das：我非常同意，因为当你第一次尝试时，价值是如此明显，你愿意通过它来工作。在与企业客户合作并为他们提供不同使用场景的过程中，你们现在也推出了 GPTs 的自定义模型，人们可以轻松构建。为什么要走这条路线，目前的进展如何?

Brad Lightcap：我尝试将其置于我们战略的更广泛的背景中解释。我们在拥有 GPT-4 中以及下一代非常核心的通用智能模型容。我们花费了大量精力思考如何让人们能够根据自身需求对这些技术或模型进行个性化定制，使其更加专注于特定任务，提高在特定领域的表现。我们在过去几个月中所做的许多工作，包括 GPTs、定制模型，都是朝着这个方向发展的。你可以将 GPTs 和定制模型看作是光谱的两端：GPTs 就是一种非常简单、轻松的方式。从 ChatGPT 的功能中裁剪出一小部分，专注于给定任务的使用。比如，如果你想让模型记住某些信息、调用外部数据、访问 PDF 或电子表格、拥有特定个性、以可预测和可重复的方式使用某些工具……你只需描述一下需求，GPTs 就能相应地自动配置出来。

我们发现企业对此有巨大需求，因为人们开始意识到，可以将这种技术应用到哪些工作流中，所以他们只需对每个需求进行正确编码并调用即可。

而定制模型则是光谱的另一端，是一种全方位的定制化服务。我们会针对特定使用场景，充分调整和优化 GPT-4 或其他模型，以最大限度发挥性能。这种服务我们提供的范围相对有限，因为它对我们来说是资源和时间密集型的。现在早期阶段仍在不断探索和试验，但已成功提高了定制模型在大量领域的能力表现。

Manuvir Das：显然你们已经开始了整个旅程。这个非常大的通用模型在很多方面都非常出色，与此同时，如果回顾过去一年，就会发现这个模型生态系统已经涌现出众多其他模型。虽然它们的能力可能并不像 OpenAI 内部的模型那样强大，但在某些特定领域，它们也在不断进步。所以你认为在企业内部，是否大型模型和小型专业模型都将扮演角色？或者你认为只需要一个大型模型就可以用于不同场景?Brad Lightcap ：是的，我们看到了所有人的角色，所有规模的模型都将发挥作用。我认为，你知道，就像我的思维模型一样，顺便，关于如何思考企业的AI部署，我尽可能地将其映射到如何从人力资本的角度构建现代企业。就像你不会聘请 25000 名博士来运营公司，你可能只需要 5 到 10 个。同样，你也不会将「GPT-X」或最新的大模型应用于每个单一的问题。你可能需要一系列在不同领域具有专业化的多样化模型，它们针对不同的使用场景经过了微调和优化。我猜想，随着时间推移，这些模型的整体性能将越来越好，因此对它们进行迭代、微调并努力使之在任何特定领域表现出色的需求将会减弱。

但你当然不需要一个一体化模型来解决所有问题。所以我们目前正在努力的一件事，是设法让人们能够根据具体使用场景动态调用不同的模型，这样就可以更好地分配智能资源。但是，我认为你可以将这种多样化的模型想象成公司内不同级别和角色的人，有实习生级别的模型、中层管理者级别的模型、高级管理者级别的模型、以及某些专门领域的专家级模型，每个级别和角色都有其存在的位置和价值。这种多样化是必要的。

Manuvir Das：如果模型能力在 1 到 10 分，你认为我们现在处于什么水平？是 1 分吗，还是 7 分？

Brad Lightcap ：我想对刚刚说的再补充一点，我们如何在企业部署 AI 的挑战中有趣的一点是，我们需要将模型能力映射到人力资本的结构上，但不断变化的是模型能力本身，基本每 6 个月就会获得提升。所以曾经被视为实习生级别的模型，6 个月后就开始看起来有点像中层副总裁级别的模型了；而之前的中层副总裁级别模型也开始像高级总监级别模型。

Manuvir Das：你刚刚是不是 diss 了一大批副总裁？现场有副总裁吗？Brad Lightcap：只是粗略类比哈哈。但这确实是一种有趣的现象，企业需要动态管理。我认为这是件好事，是富余的情况。

我们花了大量时间思考，什么问题上应该投入什么资源？随着模型能力的提高，是否应该重新整合?

Manuvir Das：这是一种新形式，让我想起 iPhone 问世时有一种观点认为，iPhone 对消费者来说很好，但公司将很难采用，因为它缺乏控制。现在回头看似乎也很可笑。

让我们谈谈接下来的事情。我在与一些已经走在前沿的客户交谈时注意到，他们开始从过去用AI作为某种形式的信息检索，转变到想要使用 AI 技术作为助手，并试图在公司内部执行操作、运行流程、调用功能等。你认为目前的这样的技术水平如何？如果我有一个助手，只是确认它的输出可以，但如果我让它为我执行操作，我就必须更加信任它对吗？

Brad Lightcap：这就是我感到兴奋的地方，这在很大程度上也体现了我们OpenAI是如何看待这项技术的应用的。

在某些方面，我们会嘲笑用 AI 工作的方式是基于信息检索，它们在某些方面是世界上最糟糕的数据库，因为它们非常慢，非常昂贵，不 100% 准确。虽然它们正在变得更好。但是为什么要将它们用作数据库？为什么要将它们用于某种高精度召回？如此使用这些系统似乎有点奇怪。

我并非在批评，但我们期望看到这些系统向着推理智能体的方向发展。因此，关键在于如何利用模型从某种数据源中提取信息的核心能力，思考这些信息，然后基于这些见解采取行动。要实现这一点，需要满足两个条件：一是提高模型的推理能力，二是赋予它某种执行器，使其能够在现实世界中采取行动。我认为这将成为未来的两个发展趋势。

我们预计，推理能力将成为模型改进的下一个重点领域，提升将会加速进行。同时，我们还需要考虑如何赋予模型解决多步骤问题的能力。我给你举一个医疗保健领域的例子。如果让一个模型查看病历，目前它可以提取出病历信息，执行一些基本操作，比如总结信息、根据输入更新信息。但是否能让它进一步思考这些信息呢？如果可以思考，它是否能够从中得出某些见解，为之后的第二步或第三步行动提供启示？它可以帮助后续随访患者、协助疾病诊断、协助开具处方、实际与患者沟通并告知何时何地取药、给出用药剂量和服用时间，并在数周后再次提醒患者服药。这是我们对未来几年内这些系统发展的看法方式。

Manuvir Das：那你认为这种情况会发生吗，是因为核心模型在这方面的能力会变得更强？还是看到一种方法，即会有一个独立的模型或系统专门用于推理，以补充现有模型？

Brad Lightcap：如果你询问 GPT-4 关于你所设想的情景，并要求它逐步解释其思考过程，它就会解释。模型已经了解了行动路径，现在的问题在于它是否能够执行每个行动步骤，识别应执行的具体操作，并且是否能够获取执行所需的资源。

Manuvir Das：听你这样说真令人振奋，因为我们确实开始看到这种趋势的出现。很显然，你们在 OpenAI 为此工作越多，对所有人来说就越好。我们刚才谈到了智能体的概念，如果从你的角度来看，在接下来的一年、三年和五年内，OpenAI 会有哪些重大转变，你们在做的工作，能真正改变人们使用这项技术的方式是什么？

Brad Lightcap：有些是我不能透露的，我可以回答一部分。我们并不认为模型的核心能力提升已经接近天花板，我们认为未来的扩展空间还很大。OpenAI 正努力推动模型在除了纯粹智力之外的其他维度上取得进步，我们觉得这方面的工作进展很好。

我们之前提到的一个问题是，有一部分工作是构建系统本身，另一部分则是确保我们有途径来部署这项技术，使其在生产环境中真正发挥作用。

Manuvir Das ：这确实是一个不太容易的问题，但你处理得很好。作为一家公司，你们可以专注于整体提升技术，也可以专注于企业客户、全球各行业以及整个商业领域，因为那里有很多机会。那么你们的思路和重点是什么呢？你们认为自己的使命是要帮助全球所有企业实现民主化，让他们都能获得进步吗，还是你们更多关注个人消费者的用例，因为这对世界来说也是一大利益?

Brad Lightcap ：是的，我们的使命就是要确保这项技术的益处能够被广泛分享。那么落实起来，一方面是确保人们能够在这个基础上进行建设。界面会发生变化，数据提取层次也会发生变化，但核心是我们将努力为人们提供有效使用这些工具的途径，无论他们想在哪里使用。

我们的联合创始人 Greg Brockman 有一个很好的比喻，那就是我们可以以这种方式去思考世界：人工智能被烘焙进了经济之中。「烘焙进去」的意思是，你需要将各种原料混合在一起，等待一段时间后，开始发挥作用。我们也经常这样想，即我们如何部署这项技术，融入其他「原料」，可以让它们一旦混合在一起，就会以不同的方式运作。这就是我们花费大量时间来实现使命的方式。

从消费者的角度来看，ChatGPT 只是对我们自己 API 的一种提取。我们只是让模型更擅长与人对话，并将其作为一种服务提供，而不之是通过 API 的方式让人们访问它。

Manuvir Das：我想 2022 年 11 月 30 日左右，当时你们发布了 ChatGPT，结果超出了你们的预期对吧? 人们对它的兴趣和采用程度令人惊讶。这确实是一个新事物，人们一下子就明白到了它的作用。现在回顾，距离发布一年多，你有何看法？如果可以重新来过，你们是否会做出一些不同的选择?

Brad Lightcap：或许当时我们应该加大 GPU 的配置？确实出乎我们的意料。我在这里只代表一下我自己，而非整个公司。我们实际上并没有认为 GPT-3 这个模型系列已经跨越了将其应用于消费者或企业应用的门槛。

我们本以为 GPT-4 将会成为第一个跨越这一门槛的模型，所以我们的很多计划和预测都是围绕 2023 年 3 月发布 GPT-4 来安排的。回想起来，我们在那之前的几个月就已经完成了 GPT-4 的训练，大约是在 2022 年中期开始训练 GPT-4 的。所以从那时起已经过去将近两年了。所以我们原本认为 GPT-4 将会成为一个关键时刻，但我们不得不为更早的需求做出一些调整。

但看到人们的热情确实令人振奋。这也证明了一点，无论是企业开发者还是个人用户，这项技术都具有一种与生俱来的人性化特质——你可以把它交给 5 岁或 95 岁的人使用，他们都能自然地使用。我们应该继续推动系统朝着提高可及性的方向发展，并降低获取门槛，确保全球人民都能接触到它。我们认为 ChatGPT 免费使用就是正确方向。我们听到了一些偏远地区的人利用它的故事。

Manuvir Das：你提到它具有人性化的一面，这一点与 NVIDIA 的理念也非常贴近。我们不仅做人工智能，我们也是一家图形公司。我们看到了很多机会，首先是文本界面比编写代码更加人性化；而且音频界面、视觉界面，以及我们所说的虚拟化身，让你感觉就像是在与另一个实体对话。当然，最终还是要通过其他 AI 将之转化为文本输入到常规对话框中。但你认为这种以更加自然的方式让人类与之交互的能力，能否给这项技术带来机会，真正实现全球范围内的扩展？你认为这是否应该成为一个值得研究和推进的好领域?

Brad Lightcap：我认为，今天出生的孩子与计算机的关系将与此刻这房间里的任何人都完全不同，难以预测。他们根本不会知道必须浏览图形用户界面、汉堡菜单、下拉列表，要填写文本框、点击提交，然后等待确认邮件被发送到收件箱的那些令人痛苦的情景。当然，我理解这只是在用现有工具做出权宜之计，但对于今天出生的孩子来说，这些都将成为完全陌生的体验。10 年后、20 年后, 他们将完全改变与计算机交互的方式。

Manuvir Das：这让我想起了我的孩子们，他们出生时正值 iPad 时代的到来。我的大男孩们，我记得有这么一个时刻，他们还很小，坐在我腿上时，我操作电脑，他们就会用手按键盘上的按键。但当我女儿两岁大时，做的动作却是用手在我的笔记本电脑屏幕上滑动，她根本不知道键盘的作用。所以我想未来的界面必将与现在完全不同。

Brad Lightcap：十年后，给你的孩子一台 2020 年左右的笔记本电脑，你看着他们对着它说话，等待回应，却一无所获，那将是一个全新的场景。

Manuvir Das：令人振奋的是，到那时你的公司和我的公司都觉得自己为这一变革做出了贡献，这真是太不可思议了。我想代表在场的每一个人，由衷感谢 OpenAI 为世界所做的一切。我们都迫切期待看到你们接下来将为世界带来什么。我们随时在这里，以任何方式为你们提供帮助。我会给我的老板发信息，看看能否为你们提供更多 GPU。再次感谢您的时间，非常感谢。