为啥「3个agent」没水吃?科学家发现了14个失败原因

2025 年是 agent 爆发之年。

基于处理复杂、多步骤任务以及与不同环境实时互动的能力,由大语言模型(LLM)驱动的 agent 系统,尤其是多 agent 系统(MAS),被认为非常适合用来解决现实世界中的问题,也因此被越来越多地应用在各个领域中,如软件工程、药物发现、科学模拟,以及通用 agent 系统。

然而,相比于单个 agent 系统甚至更简单的 baseline,多 agent 系统却在处理实际问题时更易出错。如下图所示,AppWorld 的故障率可高达 86.7%

图|使用 GPT-4o 和 Claude-3 的 5 种常用多 agent LLM 系统的故障率

这是为什么呢?来自加州大学伯克利分校和意大利联合圣保罗银行的研究团队给出了答案——

他们首次对多 agent 系统面临的挑战进行了全面研究,并确定了 14 种独特的故障模式,并划分为 3 大类:(1)规范和系统设计故障;(2)agent 间错位;(3)任务验证和终止。

相关研究论文以“Why Do Multi-Agent LLM Systems Fail?”为题,已发表在预印本网站 arXiv 上。

论文链接:https://arxiv.org/abs/2503.13657

具体而言,他们提出了首个基于经验的多 agent 系统故障分类法——MASFT,理解和缓解多 agent 系统故障提供了一个结构化框架。

同时,他们也开发了一个可扩展的“LLM-as-a-judge”评估管道,用于分析新的多 agent 系统性能和诊断故障模式。

另外,针对 agent 规范、对话管理和验证策略,他们还进行了干预研究,尽管将任务完成率提高了 14%,但仍未能完全解决多 agent 系统故障问题,这凸显了结构性多 agent 系统重新设计的必要性。

此外,他们也将研究成果进行开源,包括:

150 多个标注的多 agent 系统会话轨迹;

可扩展的 LLM-as-a-judge 评估管道和 150 多个轨迹的 LLM 标注;

15 个选定轨迹的详细专家标注。

多达 14 种故障模式

在这项工作中,研究团队使用了扎根理论(Grounded Theory)这一定性研究方法,直接从经验数据中构建理论,而不是检验预定义的假设,使故障模式的识别有机地产生。

他们通过理论抽样、开放式编码、持续比较分析、备忘录和理论化等方法反复收集和分析多 agent 系统的执行轨迹,获得多 agent 系统跟踪记录并讨论初步发现后,通过收集观察到的故障模式得出了 MASFT。

图|系统研究多 agent 系统的方法流程

为了实现自动故障识别,他们开发了基于 LLM 的标注器,并验证了它的可靠性。

然后,他们进行了标注器之间的协议研究,通过添加、删除、合并、拆分或修改定义反复调整故障模式和故障类别,直到达成共识。这一过程反映了一种学习方法,即不断完善分类法,直至达到稳定性,并通过 Kappa 系数来衡量标注器之间的一致性。

图|多 agent 系统故障模式分类法

最终,MASFT 包含了 3 个总体故障类别:规范和系统设计故障;agent 间错位;任务验证和终止,确定了多 agent 系统在执行过程中可能遇到的 14 种细粒度故障模式。

MASFT 还将多 agent 系统的执行划分为 3 个阶段:执行前、执行中和执行后,确定了每个细粒度故障模式可能发生的多 agent 系统执行阶段。

图|多 agent 系统故障类别相关矩阵

另外,他们发现,多 agent 系统面临着与复杂的人类组织类似的问题,其故障模式与在人类组织中观察到的常见故障模式一致。“不要求澄清”破坏了“尊重专业知识”,“agent 错位”体现了加强等级区分和协调角色分配的必要性。

多 agent 协作的有效性,仍有待提高

针对以上所有的故障类别,研究团队提出了战术策略和结构策略。

战术策略涉及针对特定故障模式的直接修改,如改进提示、agent 网络的拓扑结构和对话管理。然而,两个案例研究证明,这些方法的有效性并不一致。

结构策略,即对整个系统有影响的更全面的方法:强验证、增强型通信协议、不确定性量化以及内存和状态管理。这些策略需要更深入的研究和细致的实施,仍是有待未来探索的研究课题。

图|多 agent 系统的解决策略和故障分类

研究团队在两个案例研究中应用了这些策略方法。

在第一个案例中,他们使用 AG2 中的 MathChat 场景实现作为基线,在该场景中,学生 agent 与能够执行 Python 代码的助理 agent 合作解决问题。

为了进行基准测试,他们从 GSM-Plus 数据集中随机选取了 200 个练习。第一种策略是改进原始提示,使其具有清晰的结构和专门用于验证的新部分。第二种策略是将 agent 配置细化为一个更专业的系统,其中包含三个不同的角色:问题解决者(Problem Solver),不使用工具,使用思维链方法解决问题;编码者(Coder),编写并执行 Python 代码,得出最终答案;验证者(Verifier),审查讨论并批判性地评估解决方案,要么确认答案,要么引发进一步讨论。

在这种情况下,一旦找到解决方案,只有验证人可以终止对话。

在第二个案例中,ChatDev 模拟了一个多 agent 软件公司,不同的 agent 有不同的角色定位,如首席执行官、首席技术官、软件工程师和审核员,他们试图合作解决一个软件生成任务。

他们实施了两种不同的干预措施。第一个是改进特定角色的提示,以强化层次结构和角色一致性;第二个是尝试涉及对框架拓扑结构的根本性改变,将框架的停止结构从有向无环图(DAG)修改为循环图。

现在,只有当 CTO agent 确认所有审查都得到适当满足时,该过程才会终止,并设定了最大迭代截止时间,以防止出现无限循环。这种方法可以实现迭代改进和更全面的质量保证。

图|各种方案的性能准确度

研究团队表示,许多“显而易见”的解决方案实际上存在严重的局限性,需要概述的结构性策略来实现更加一致的改进。

考虑到目前多 agent 协调中的信息冗余与冲突,协作中放大的模型偏差,未来的多 agent 系统需要做到快速响应、实时验证和动态协调,以提高团队协作的有效性

“基于 LLM 的多 agent,在分布式科研协作、应急响应系统等领域仍具有一定的潜力。”

作者:与可

主题测试文章,只做测试使用。发布者:参考消息网,转转请注明出处:https://www.cns1952.com/gov/10070.html

(0)
参考消息网的头像参考消息网
上一篇 2025年3月26日 下午1:00
下一篇 2025年3月26日 下午4:00

相关推荐

  • “天选减肥果”竟是它!低卡高纤还美味,多吃不怕胖

    夏天快到了,很多人的减肥计划纷纷提上日程。今天要给大家安利的,就是堪称减脂人群“贴心小棉袄”的圣女果。 这颗看似普通的红色小果,实则蕴含着令人惊喜的营养价值。那么它的营养到底有什么独到之处?它与普通西红柿的差异难道仅仅是体型上的区别?今天就让我们一块来了解一下。 低卡高纤的“减肥黄金果” 圣女果虽然在食物成分表里属于蔬菜类,但其实有很多水果的特性,如像水果一…

    2025年4月27日
    3100
  • 头戴安全帽、脚踩电瓶车,被罚?交警告诉你原因→

    我们都知道,骑电瓶车出行要戴头盔,不过,为了方便,有的人把安全帽或运动头盔拿来用,结果被交警发现作出处罚。好奇怪,安全帽等不也是保护头部的吗?而且坚固摔不破,为啥不能替代电瓶车头盔呢? 图片由即梦AI生成 以安全帽为例,交警提醒,安全帽并不等于电瓶车头盔(以下简称为头盔)。安全帽是对工业生产中工人的头部受外力伤害起防护作用的帽子,头盔是保护驾驶员和乘坐人员头…

    2025年3月26日
    8700
  • 谨记“法拉第笼效应”,开车遇到这种情况,能保命!

    出品:科普中国 作者:一言科普团队 监制:中国科普博览 近日,一则“小汽车在路上挂到电缆”的事件引起了公众的广泛关注。司机在这种情况下没有选择下车,而是继续驾驶。这一行为在一些人看来似乎不负责任,却有人说“还好挂到的是聪明人”。 这究竟是为什么呢?难道司机不怕刮断电缆后赔偿吗?遇到这种情况的正确做法应该是什么呢? 掉落在地上的电线 (图片来源:veer图库)…

    2024年12月22日
    22800
  • 春暖花开上春山,一定绷紧这些条安全之“弦”→

    春季来临,气温逐渐上升,许多人开始选择徒步、登山等户外活动。登山远眺、亲近自然,固然是一件喜乐之事,但因游客安全意识不足所致的摔伤、坠崖、冻伤事件也屡有发生。户外登山,一定绷紧安全之“弦”。 01 做好登山前准备工作 与城市相比,野外山区环境复杂多变。 初春时节,山区气候乍暖还寒、大风降温时有发生。 春季冰雪消融还是滑坡崩塌等冻融地质灾害的高发期与森林火灾的…

    2025年3月9日
    9200
  • 他们给居民免费发鸡,为了解决厨余垃圾|环境小喇叭

    大家好,这里是环境小喇叭栏目的第31期。这一期,我们为大家搜罗了以下值得一看的环境研究和新闻: 1)英国高等法院裁决鸡粪是工业废物 2)又旱又涝,全球 15% 的大城市正在经历“气候鞭挞” 3)生产了世界上最多轮胎的乐高,开始用渔网造轮胎 4)欧洲小镇免费发鸡来减少食物浪费 英国裁决鸡粪是工业废物 近日,英国高等法院作出一项裁决,认定工业化养鸡场产生的鸡粪属…

    2025年3月31日
    7800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信