ICML 2024 Oral ｜智能体领域的一点优雅，GPTSwarm率先开启全图优化新时代

ICML 2024 Oral ｜智能体领域的一点优雅，GPTSwarm率先开启全图优化新时代

2024-12-26 15:44

KAUST AI中心的Jürgen Schmidhuber团队于今年2月发表了GPTSwarm智能体方案[1]。GPTSwarm 是一种突破性的方法，是首篇将大型语言模型（LLM）智能体转化为可优化的图结构的学术工作。该框架通过动态可调整的图结构，根据任务需求灵活调整，特别适用于快速变化的学术和工业环境。这篇论文首次详细描述了从原子操作到单一智能体，再到多智能体系统的图构建和优化方法，开创性地展示了如何通过图优化提升智能体的提示和协作模式。论文已被ICML2024录用为口头报告（Oral Presentation，144/9,473，入选率为1.5%）。

论文题目： GPTSwarm: Language Agents as Optimizable Graphs 论文链接： https://arxiv.org/abs/2402.16823 代码链接： https://github.com/metauto-ai/GPTSwarm

图1：GPTSwarm的整体框架非常清晰：1) “原子操作”对应“节点”；2) “智能体”对应“由多个节点以特定拓扑结构组成的计算图”；3) “多智能体（蜂群）”对应“由多个代表智能体的图组成的更复杂的复合图”；A) “多智能体（蜂群）的通信和协作”对应“图上的信息流”；B) “智能体的编排”对应“复合计算图的边连接”；C) “多智能体优化”对应“对图的节点或边的优化”。

在当前的人工智能研究中，大型语言模型（LLM）驱动的自主问题解决器和智能体正迅速发展，并被广泛应用于各种领域。这些智能体通过先进的提示工程技术，如零样本和少样本提示，实现了前所未有的性能提升。然而，随着应用需求的多样化和复杂化，如何将这些智能体有效地整合成一个协同工作的系统，并自动优化其结构，成为一个关键挑战。此外，目前对智能体的定义仍然模糊，大多数工作过于依赖工程手段，导致在引入更创新的设计时缺乏灵活性。

过去2年里，研究人员提出了多种结构化的提示技术以改进LLM的性能。例如，Chain of Thought (COT)、ReAct和Tree of Thought (TOT)等方法通过引导模型逐步推理，显著提升了文本推理能力。这些方法虽然各具特色，但往往需要大量的人力工程投入来设计提示和定义智能体的工作流程，导致代码库复杂且难以统一。此外，自我进化、自我提升仍然是智能体领域研究者趋之若鹜的研究课题，但具体方案尚不清晰。

GPTSwarm的提出正是为了解决这些难题。它通过将LLM智能体描述为可优化的计算图，统一了现有的提示工程技术，并利用图结构的灵活性和动态调整能力，使得智能体系统能够根据任务需求进行优化和调整，特别适用于快速变化的学术和工业环境。这种创新性的框架不仅可以提升单个智能体的性能，还能够通过自动优化节点和边，实现多智能体系统的高效协同和集成。

这篇论文首次详细描述了从原子操作到单一智能体，再到多智能体系统的图构建和优化方法，为未来的智能系统研究提供了新的视角和工具。

一、用图构建智能体

受前序工作《心智风暴：基于自然语言的心智社会》[2]（NeurIPS Ro-FoMo研讨会最佳论文）的启发，研究探讨了智能如何从底层逐步向上发展，从单一组件集成到复杂社会的形成，提出了一种基于计算图表示的模块化和层次化的框架来组织智能。该框架由节点、图和复合图组成，每个组件在其中扮演特定角色。节点代表基本操作，智能体被概念化为由多个节点组成的图，群体或复合图则表示一个复杂的智能体系统，其中系统的集体能力可能超过个体智能体的能力。

图2：GPTSwarm多智能体逻辑示意图

二、图的定义

注：文章中提供了更为详细的数学模型和符号表示，包括按照拓扑结构运行计算图的方法、边优化的具体强化学习算法，以及节点优化的meta-prompting方案等。

一个自主智能体被建模为一个有向计算图，由一组节点、一组有向边和一组计算例程组成。给定一个输入，图按拓扑顺序执行其节点，每个节点接收输入和前驱节点的输出，应用计算例程并将输出发送到其后继节点。这样，每个节点可以执行特定的任务，如数据处理或查询LLM，边则描述了操作之间的信息流。

在多智能体的群体中，复合图由多个智能体图组成，表示多个智能体的协同工作。优化复合图的目标是通过边的选择来最大化任务的效用，从而确定智能体间最有效的通信模式。这种图形表示允许我们在不同层次上进行优化，包括节点级别的提示优化和智能体间的协调优。

三、边优化

边优化涉及确定连接不同智能体节点的边，以最大化任务效用。边优化问题被重新表述为一个连续优化问题，通过优化参数化的概率分布来实现。具体来说，为每个可能的边分配一个概率，并通过强化学习或进化算法优化这些概率，以找到最佳的边连接模式，使得智能体间的通信和协作最为高效。

图3：通过边优化剔除负面影响的对抗智能体（通过丢弃边缘轻松实现）

图4：边优化过程中MMLU性能不断提升

图5：GPTSwarm创新性地将边的连接视为邻接矩阵，并通过强化学习优化该矩阵

图6：自动学习后的方案比原始TOT要显著优越

四、节点优化

节点优化旨在改进每个节点的提示。框架允许每个节点根据之前的输入和任务反馈自我改进提示，从而提高系统整体性能。节点优化不仅可以提升单个节点的功能，还可以通过改进提示的质量和准确性，增强整个智能体系统的协同工作能力。通过迭代优化，每个节点在处理输入和生成输出时会越来越高效，从而提高整个系统的任务完成度和响应速度。

图7：节点优化通过meta-prompting方案实时提升HumanEval的性能。

这种优化方法使得GPTSwarm能够自动适应和优化其结构，从而在各种复杂任务中表现出色。通过节点和边的持续优化，GPTSwarm不仅能够处理当前的任务需求，还能根据新出现的问题和挑战进行自我调整和改进，保持其在快速变化的环境中的领先地位。

五、实验

在多个基准测试上验证了GPTSwarm的有效性，展示了其在不同任务中的卓越表现：

MMLU：通过边优化，证明了智能体群体可以有效过滤对抗性智能体，提高整体性能。在对抗性环境中，优化后的图结构能够显著提升群体的准确性和稳健性。
Mini Crosswords：边优化显著提高了群体在解答迷你填字游戏上的表现。实验结果表明，优化后的智能体群体在解决复杂问题时表现出更高的准确性和效率。
HumanEval：节点优化显著改进了代码生成任务的性能。通过对节点的提示进行优化，GPTSwarm在代码生成和问题解决任务中表现出色，生成的代码质量和正确率得到了显著提升。
GAIA：在测试AI助理的通用能力时，框架表现出了显著优势。通过优化智能体间的协作和通信模式，GPTSwarm在处理多样化任务和复杂场景时展现了强大的适应能力和灵活性。

六、结论

GPTSwarm提供了一种创新的方法，通过将语言智能体描述为可优化的图结构，统一了现有的提示工程技术，并引入了节点和边的自动优化方法。GPTSwarm [1] 和 LangGraph [3] 都是在2023年下半年筹划和构建的工作，并且都在今年1月至2月间公开，思路相似，但GPTSwarm不仅强调了智能体由图构建的重要性，还率先提出了可行的优化方案。这一方案使优化算法、强化学习和元学习等多种算法得以引入，显著拓展了智能体优化的可能性和应用前景。目前，众多顶尖智能体框架和公司已经意识到用图构建智能体的重要性，这一领域已成为竞争的焦点。

七、附录

文章的附录中提到了未来几个值得继续推进的课题：

扩大规模：当前的方法主要优化智能体之间的边连接，但每个智能体的内部节点拓扑同样至关重要。动态调整拓扑结构可能会显著增强任务规划能力。此外，扩展智能体数量也至关重要。比如，当智能体数量超过100时，维持高效通信和系统鲁棒性将成为一项重大挑战。
进一步发挥想象力：许多最新的语言智能体被描述为不同功能组件的组合。去年OpenAI的一位研究员发布了一条流行的推文：“智能体 = 大型语言模型 (LLM) + 记忆 + 规划技能 + 工具使用。”这种公式虽然简洁直观，但在很大程度上限制了想象力。相比之下，GPTSwarm通过计算图的方式构建智能体，展现出更高的灵活性，能够学习改进的智能体工作流和精确的智能体路由。随着智能体数量增加到数百万甚至数十亿，这种方法的重要性将愈发凸显。
更好的优化方案：虽然正文中没有提到，但与DyLan、MM-Debate等方案相比，GPTSwarm的优化方案已经展现出快速高效的优势。未来，可以期待更多优化方案的出现，这将为领域带来更大的进步和价值。

参考资料

[1] Zhuge, Mingchen, et al. "GPTSwarm: Language Agents as Optimizable Graphs." Forty-first International Conference on Machine Learning.

[2] Zhuge, Mingchen, et al. "Mindstorms in natural language-based societies of mind." arXiv preprint arXiv:2305.17066 (2023)

[3] https://github.com/langchain-ai/langgraph

llustration From IconScout By Alexdndz

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（

www.techbeat.net

）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com