中国科学院信工所发布首篇LLM智能体幻觉综述！梳理5类幻觉、18大诱因与10种缓解方案，300+论文资源开源

不同于传统LLM仅在文本生成中出现的“语言错误”，LLM智能体的幻觉是跨模块、长链条的“复合偏差”：可能是规划行程时误解用户需求（推理幻觉），可能是调用工具时填充错误参数（执行幻觉），甚至可能在多智能体协作中传递虚假信息（通信幻觉），最终导致任务失败、设备故障，乃至现实世界的安全风险。其诱因包括“初始记忆有偏差”（如训练数据中的性别、国籍偏见）、“检索机制低效”（如仅按关键词匹配，忽略语义相关性）

zenRRan

1166人浏览 · 2025-09-27 18:30:03

zenRRan · 2025-09-27 18:30:03 发布

当大语言模型驱动的智能体（LLM-based Agent）逐渐渗透进教育辅导、科学研究、金融分析等关键领域，成为实现通用人工智能（AGI）的核心载体时，一个致命问题正制约其落地——幻觉。不同于传统LLM仅在文本生成中出现的“语言错误”，LLM智能体的幻觉是跨模块、长链条的“复合偏差”：可能是规划行程时误解用户需求（推理幻觉），可能是调用工具时填充错误参数（执行幻觉），甚至可能在多智能体协作中传递虚假信息（通信幻觉），最终导致任务失败、设备故障，乃至现实世界的安全风险。

正是在这一背景下，来自中国科学院信息工程研究所、中国科学院自动化研究所、中国科学院数学与系统科学研究院、武汉大学、中国人民大学、麦考瑞大学、格里菲斯大学等机构的研究者，联合小米等企业团队，发布了首篇聚焦LLM智能体幻觉的全面综述——《LLM-based Agents Suffer from Hallucinations: A Survey of Taxonomy, Methods, and Directions》。这篇综述不仅首次厘清了智能体幻觉的本质，更提出全新分类框架、拆解18大触发原因、总结10种缓解策略，并开源300+相关研究论文库，为打造可靠、安全的智能体系统提供了关键参考。

论文链接：https://arxiv.org/pdf/2509.18970
Github：https://github.com/ASCII-LAB/Awesome-Agent-Hallucinations

打破认知：LLM智能体幻觉≠传统语言幻觉

在讨论智能体幻觉前，必须先明确一个核心区别：LLM智能体不是“会说话的模型”，而是“会决策、会行动的智能系统”。

传统LLM的幻觉多局限于文本生成，比如编造不存在的文献引用或事实错误；但LLM智能体拥有“大脑-感知-动作”三大核心模块：“大脑”负责记忆与推理，“感知”处理多模态环境输入，“动作”可调用工具（如日历API、智能家居指令）。这种复杂性使得智能体幻觉呈现出三大独特性：

类型更复杂：不是单一错误，而是模块交互产生的复合行为偏差，比如“感知错误→记忆存储→推理误用”的连锁问题；
传播链更长：幻觉可能出现在推理、执行、记忆等任一中间环节，随时间累积放大，而非仅存在于最终输出；
后果更严重：错误会转化为“物理可执行动作”，比如智能家居Agent误判环境亮度导致持续开灯，或金融Agent错误调用交易API造成损失。

为了精准刻画这一系统，综述用部分可观测马尔可夫决策过程（POMDP） 对智能体交互动力学进行形式化定义。在这一框架中，智能体基于自身信念（Belief），通过感知环境（Perception）、生成计划（Reasoning）、执行动作（Execution）、接收反馈（Feedback）、更新记忆（Memorization）来实现目标（如图1所示）；而多智能体系统（MAS）还需额外处理消息广播（Broadcasting）与通信拓扑进化（Structure Evolution），这进一步增加了幻觉传播的风险。

全新分类：5类幻觉覆盖智能体全流程，18大触发原因拆解“幻觉为什么会发生”

基于图1，综述提出了首个覆盖智能体全工作流的幻觉分类体系，将复杂的幻觉问题拆解为5种可定义、可分析的类型，每种类型都配有真实场景案例，让研究者与开发者能精准定位问题；仅分类还不够，综述的另一大贡献是系统性梳理了18个导致幻觉的核心触发原因，为后续缓解方案提供“靶点”，如图2所示。

1. 推理幻觉：“想错了”

推理是智能体的“决策核心”，负责理解用户目标、分解子任务、生成执行计划。推理幻觉则是“看似合理，实则逻辑错误”的规划偏差，细分为三类：

目标理解幻觉：误解用户意图，比如用户要求“推荐适合老人的餐厅”，Agent却推荐以辣菜为主的餐厅；
意图分解幻觉：子任务拆解错误，比如规划“10人家庭野餐（预算500元）”时，错误加入“全天草坪预订”等无关子目标；
计划生成幻觉：基于错误假设生成计划，比如忽略自身工具调用权限，规划“调用未授权的天气API获取数据”。

其根源多与“目标表达模糊”“长上下文误用”“子任务依赖建模不足”相关，比如用户指令语义模糊（如“周末短途游”未说明地点），或Agent处理长文本时过度依赖近期信息，忽略关键约束（如预算限制）。

2. 执行幻觉：“做错了”

执行阶段是智能体将“计划”转化为“动作”的关键环节，核心是工具选择与调用，幻觉主要表现为：

工具选择幻觉：自信选择不存在或无关的工具，比如用户查询北京旅行推荐，Agent调用虚构的“get_beijing_travel_info”工具；
工具调用幻觉：工具参数错误，比如调用“航班查询工具”时遗漏“出发日期”参数，或填充错误的机场代码。

综述指出，这两类幻觉的核心诱因是“工具认知偏差”：工具文档描述不完整（如API参数说明缺失）、Agent对工具使用模式理解过浅（如不知工具需嵌套调用），或无法适应工具功能更新（如API接口变更后仍用旧参数）。

3. 感知幻觉：“看错了”

感知模块是智能体的“感官”，负责将物理环境信号（如摄像头图像、麦克风声音）转化为内部可理解的观测值。感知幻觉则是“观测值与真实环境严重偏差”，主要源于：

传感器故障：如摄像头镜头畸变导致Agent误判“桌子上有杯子”（实际无），或惯性传感器漂移造成机器人导航偏差；
编码能力不足：单模态信息提取不全（如忽略图像中的局部细节），或跨模态融合失败（如文本描述“红色按钮”与图像中“蓝色按钮”无法对齐）。

这类幻觉是后续所有决策错误的“源头”——若环境输入本身失真，后续记忆与推理再精准也无意义。

4. 记忆幻觉：“记错了”

记忆模块是智能体的“知识库”，负责存储历史交互、环境信息与工具使用记录。记忆幻觉则是“默认记忆可靠，实则依赖错误信息”，分为两类：

记忆检索幻觉：提取无关或不存在的信息，比如用户询问“明天会议安排”，Agent从记忆中检索出“昨天的项目会议”作为答案；
记忆更新幻觉：错误修改或删除记忆，比如用户要求“取消明天上午会议”，Agent却误删全天所有会议记录。

其诱因包括“初始记忆有偏差”（如训练数据中的性别、国籍偏见）、“检索机制低效”（如仅按关键词匹配，忽略语义相关性），或“记忆优先级混乱”（重要信息被误删，冗余信息留存）。

5. 通信幻觉：“传错了”

在多智能体系统中，Agent需通过通信共享知识、协调任务，通信幻觉则是“看似在交流，实则传递错误信息”，主要表现为：

消息传播错误：Agent生成含事实错误的消息，如“客户需要代码审查”被传为“客户需要冷启动审查”；
协议不协调：通信格式或时序混乱，比如部分Agent用JSON格式发消息，部分用自然语言，导致信息无法解析；
网络更新无效：通信拓扑未及时调整，比如将财务数据发送给无权限的Agent，或关键消息未传递到负责执行的节点。

这类幻觉的典型案例是“回声室效应”——多Agent间反复传递同一错误信息，最终集体偏离原始目标。

系统解法：3大方向10种缓解策略+检测进展

针对上述问题，综述从近年研究中提炼出三大类共10种幻觉缓解方法，如图4所示；同时，也客观指出了当前检测研究的现状——感知幻觉检测方法较多，记忆与通信幻觉检测仍待突破。

1. 知识利用：用“可靠知识”减少偏差

核心思路是为Agent提供精准、实时的知识支撑，弥补内部知识缺口：

外部知识指导：引入专家知识（如领域规则、知识库）或世界模型（如物理定律、常识），比如用“烹饪前需清洗食材”的常识约束Agent行为；
内部知识增强：通过提示工程（如思维链CoT、树状思维ToT）激活Agent已有知识，或通过“知识编辑”修正错误记忆（如替换过时的工具参数信息）。

2. 范式改进：用“更好的学习方法”提升鲁棒性

从训练与推理范式入手，增强Agent抵抗幻觉的能力，包括6种关键方法：

对比学习：让Agent学会区分“正确/错误”模式，减少相似任务的混淆；
课程学习：从简单任务（如单工具调用）逐步过渡到复杂任务（如多工具嵌套调用），积累可靠经验；
强化学习：通过“试错-反馈”优化策略，比如用“代码单元测试通过率”作为奖励信号，提升编程Agent的准确性；
因果学习：建模任务中的因果关系，避免“相关性误判为因果”的推理错误；
图学习：用图结构组织工具、记忆或多Agent通信拓扑，提升信息管理的有序性；
解码优化：推理时调整输出概率分布，比如“对比解码”选择更符合事实的候选结果。

3. 事后验证：“做完再检查”，阻止幻觉传播

在任务执行的每一步后加入验证环节，避免幻觉累积，主要分为两类：

自我验证：Agent通过“自我反思”（如重新检查推理步骤）、“自我一致性”（生成多个结果后投票）等方式自查错误；
验证器辅助：引入外部系统验证，比如用“检索验证器”查外部事实、“执行验证器”运行代码测试正确性，或“模拟验证器”在沙盒环境中预演动作。

在此基础上，综述还贴心地通过表格清晰标注了每种方法对5类幻觉的适用场景，如表1所示：

而在检测方面，综述梳理了当前代表性方法（如图5所示）：例如用SelfCheckGPT检测推理幻觉，用ToolBH评估工具调用幻觉，用LRP4RAG定位记忆检索幻觉等。但现状是，感知幻觉因“输入-输出偏差易观测”（如图像与文本描述不匹配）而研究较多，记忆与通信幻觉因“隐蔽在内部模块”而检测方法稀缺，这是未来的重点方向之一。

开源资源+未来方向：为可靠智能体铺路

为了推动领域协作，综述团队还打造了首个LLM智能体幻觉研究资源库，在GitHub（https://github.com/ASCII-LAB/Awesome-Agent-Hallucinations）上开源了300+相关论文，涵盖幻觉分类、缓解、检测等所有方向。同时，基于对现有研究的复盘，综述提出了6个亟待突破的未来方向，直指智能体幻觉研究的核心痛点：

幻觉累积研究：当前多关注单步幻觉，需分析“多步累积效应”，比如“初始感知误差如何在10轮交互后导致严重决策错误”；
精确幻觉定位：需设计可追溯的执行轨迹模型，比如在每个模块加入“轻量级检查点”，快速定位幻觉源头；
机制可解释性：用“神经机制解释（MI）”揭示幻觉的内部成因，比如Transformer的哪些层负责工具调用决策，为何会出现参数错误；
统一基准构建：现有基准多针对单一幻觉类型（如ToolBH仅测执行幻觉），需建立覆盖“推理-执行-记忆-通信”的综合评估体系；
持续自进化能力：让Agent能动态适应环境与需求变化，比如通过终身学习更新知识，避免“旧知识导致的幻觉”；
基础架构升级：突破Transformer的长上下文瓶颈，探索“神经符号系统”等新架构，提升推理与记忆的可靠性。

总结：从“能做事”到“可靠做事”的关键一步

LLM智能体的发展正从“追求功能全面”转向“追求安全可靠”，而幻觉问题是这一转型路上必须跨越的障碍。这篇综述的价值，不仅在于“系统性梳理现有研究”，更在于“为领域建立了统一的问题定义与分析框架”——它让原本模糊的“幻觉问题”变得可分类、可溯源、可解决。

对于研究者，这份综述是入门的“地图”，清晰标注了每个方向的研究现状与缺口；对于开发者，它是排查问题的“手册”，可按5类幻觉快速定位产品中的风险点；而对于整个领域，它标志着LLM智能体研究从“零散探索”进入“系统攻坚”阶段。

正如综述结尾所言：“解决智能体幻觉不是‘优化细节’，而是构建可靠AGI的基础。” 随着更多研究者基于这份框架开展工作，我们离“能自主决策、且让人放心”的智能体系统，无疑又近了一步。

ModelEngine社区

更多推荐

从崩溃到自愈：Temporal+MCP-Agent构建永不中断的AI工作流

你是否遇到过AI工作流执行到90%突然崩溃的绝望？训练了数小时的模型因服务器重启前功尽弃？团队协作时因某人未及时审批导致整个流程停滞？本文将展示如何通过Temporal与MCP-Agent的深度集成，彻底解决这些痛点，构建真正企业级的可靠AI工作流系统。读完本文你将掌握：- 3行代码实现工作流故障自愈- 零停机升级正在运行的AI任务- 跨团队协作的工作流信号机制- 从本地开发到生产集群