【AI论文】VIKI-R：通过强化学习协调具身多智能体协作

本研究提出VIKI-Bench基准测试和VIKI-R框架，用于评估和提升异构多智能体系统的视觉协作能力。VIKI-Bench包含智能体激活、任务规划和轨迹感知三个层次的任务，涵盖多样化形态和视觉输入。VIKI-R采用两阶段训练：先用思维链注释微调视觉语言模型，再通过强化学习优化协作策略。实验表明，VIKI-R显著优于基线方法，且较大模型在视觉推理任务中表现更优。研究还发现反馈驱动采样能提升任务规划

东临碣石82

1076人浏览 · 2025-06-27 07:00:00

东临碣石82 · 2025-06-27 07:00:00 发布

摘要：在动态环境中协调多个具身智能体仍然是人工智能领域的一个核心挑战，这既需要感知驱动的推理能力，也需要可扩展的合作策略。尽管近期的研究已经利用大型语言模型（LLMs）进行了多智能体规划，但仅有少数研究开始探索利用视觉语言模型（VLMs）进行视觉推理。然而，这些基于VLM的方法在支持多样化的智能体形态方面仍然存在局限。在本研究中，我们引入了VIKI-Bench，这是第一个专为具身多智能体合作量身定制的分层基准测试，包含三个结构化层次：智能体激活、任务规划和轨迹感知。VIKI-Bench涵盖了多样化的机器人形态、多视角视觉观测以及结构化的监督信号，用于评估基于视觉输入的推理能力。为了展示VIKI-Bench的实用性，我们提出了VIKI-R，这是一个两阶段的框架，首先使用思维链（Chain-of-Thought）注释的演示对预训练的视觉语言模型（VLM）进行微调，然后在多级奖励信号下进行强化学习。我们的大量实验表明，VIKI-R在所有任务层次上均显著优于基线方法。此外，我们还展示了强化学习如何使异构智能体之间涌现出组合式的合作模式。总之，VIKI-Bench和VIKI-R为推进具身人工智能系统中的多智能体、视觉驱动的合作提供了一个统一的测试平台和方法。Huggingface链接：Paper page，论文链接：2506.09049

2506.09049v1文献总结

一、研究背景和目的

研究背景：

随着人工智能技术的快速发展，多智能体系统（Multi-Agent Systems, MAS）在多个领域展现出了巨大的应用潜力，特别是在需要复杂协作和动态环境适应性的场景中。然而，实现高效、协调的多智能体合作仍然是一个极具挑战性的问题。传统的多智能体系统往往依赖于预定义的规则和固定的协作模式，这在面对复杂多变的环境和任务时显得力不从心。

近年来，大型语言模型（Large Language Models, LLMs）在自然语言处理领域取得了显著进展，为多智能体系统提供了新的可能性。LLMs不仅能够理解和生成自然语言，还能够通过上下文学习来适应不同的任务和环境。然而，将LLMs直接应用于多智能体系统仍面临诸多挑战，特别是在处理视觉信息和进行精细化的视觉推理方面。

与此同时，视觉语言模型（Vision-Language Models, VLMs）的兴起为多智能体系统提供了新的视角。VLMs能够结合视觉和语言信息，进行更复杂的推理和决策。然而，现有的VLMs在支持多样化智能体类型和进行精细化的视觉推理方面仍存在不足。特别是在异构多智能体系统中，不同智能体具有不同的形态和能力，如何有效地整合这些智能体的感知和推理能力，实现高效的协作，是一个亟待解决的问题。

研究目的：

本研究旨在提出一种名为VIKI-R的新型框架，通过强化学习（Reinforcement Learning, RL）来协调异构多智能体的合作。具体而言，本研究的目标包括：

开发VIKI-Bench基准测试集：构建一个专门用于评估异构多智能体合作能力的分层基准测试集，包括智能体激活、任务规划和轨迹感知三个层次的任务。
提出VIKI-R框架：设计一个两阶段的训练框架，首先通过思维链（Chain-of-Thought, CoT）注释对预训练的VLM进行微调，然后利用多层次的奖励信号进行强化学习，以提升多智能体系统的视觉推理和协作能力。
验证VIKI-R的有效性：通过实验验证VIKI-R框架在VIKI-Bench基准测试集上的性能，展示其在提升异构多智能体合作效率方面的优势。

二、研究方法

1. VIKI-Bench基准测试集：

VIKI-Bench是一个专门为异构多智能体合作设计的分层基准测试集，包含三个层次的任务：智能体激活、任务规划和轨迹感知。

智能体激活：该层次的任务要求从多个智能体中选择合适的智能体来完成特定任务。任务描述包括场景图像和任务指令，智能体需要根据这些信息选择最合适的智能体组合。
任务规划：该层次的任务要求生成一个有序的动作序列，以完成特定任务。任务描述包括场景图像、任务指令和可用的动作原语，智能体需要规划出一条可行的动作序列。
轨迹感知：该层次的任务要求预测所有智能体的运动轨迹。任务描述包括自我中心视角的图像和动作描述，智能体需要预测出自己和其他可见智能体的运动轨迹。

2. VIKI-R框架：

VIKI-R是一个两阶段的训练框架，旨在通过强化学习提升异构多智能体的视觉推理和协作能力。

阶段一：监督微调（SFT）：
数据准备：使用思维链注释的数据对预训练的VLM进行微调。每个训练实例包括视觉输入、任务描述、中间推理步骤和最终答案。
训练目标：最大化在给定输入下推理和答案标记的联合可能性，从而优化模型的推理模式。

阶段二：强化学习微调：
奖励设计：设计了一个综合奖励函数，包括格式奖励和任务特定准确性奖励。格式奖励鼓励模型使用正确的推理和答案标签，任务特定准确性奖励则根据任务的完成情况进行奖励。
训练过程：使用分组相对邻近优化（Grouped Relative Proximal Optimization, GRPO）算法对策略进行微调。在每个视觉问题对上采样一组候选答案，并根据奖励函数评估这些答案，使用KL散度约束来确保策略的稳定改进。

三、研究结果

1. 基准测试集性能：

在VIKI-Bench基准测试集上，VIKI-R框架显著优于基线方法。具体而言：

智能体激活：VIKI-R在智能体激活任务上取得了最高的准确率，表明其能够更准确地选择合适的智能体组合来完成任务。
任务规划：在任务规划任务上，VIKI-R同样表现出色，其生成的动作序列既可行又高效。
轨迹感知：在轨迹感知任务上，VIKI-R的预测轨迹与真实轨迹具有较高的空间和时间对齐度，表明其能够准确地预测智能体的运动轨迹。

2. 模型规模与性能：

研究还发现，模型规模对开放源代码VLM的性能有显著影响。较大的模型（如72B参数的Qwen2.5-VL）在感知指标上能够匹配甚至超过一些闭源基线，而较小的模型（如32B参数）则在规划准确性和轨迹质量上出现显著下降。这表明，对于处理复杂的多智能体视觉推理任务，较大的模型规模是必要的。

3. 反馈驱动的迭代优化：

通过比较标准采样和反馈驱动采样两种规划策略，研究发现反馈驱动采样能够显著提高任务规划的成功率。特别是在GPT-4o、Claude-3-7-Sonnet和Gemini-2.5-Flash等模型上，反馈驱动采样分别提高了任务规划的成功率。这表明，通过迭代反馈，模型能够更快地收敛到更优的解决方案。

四、研究局限

尽管VIKI-R框架在异构多智能体合作方面取得了显著进展，但仍存在一些局限性：

模拟环境与现实世界的差距：

环境复杂性：当前的研究主要在模拟环境中进行，现实世界中的环境可能更加复杂和多变，包括动态障碍物、不可预测的人类行为等。
传感器噪声：现实世界中的传感器数据往往存在噪声和不确定性，这可能影响智能体的感知和决策能力。

计算资源的需求：

训练时间：VIKI-R框架的训练过程需要大量的计算资源，特别是在强化学习阶段，需要对多个候选答案进行采样和评估。
实时性要求：在某些应用场景中，如自动驾驶或机器人控制，对实时性有较高要求，而当前的框架可能无法满足这些要求。

智能体形态与能力的多样性：

形态限制：当前的研究主要关注了几种常见的智能体形态（如人形机器人、轮式机器人等），但在现实世界中，智能体的形态可能更加多样，包括无人机、水下机器人等。
能力差异：不同智能体在感知、决策和执行能力上存在差异，如何有效地整合这些能力，实现高效的协作，仍然是一个挑战。

安全性与伦理问题：

安全性：在多智能体系统中，安全性是一个重要考虑因素。如何确保智能体在协作过程中不会对人类或其他智能体造成伤害，是一个需要解决的问题。
伦理问题：随着多智能体系统在各个领域的应用越来越广泛，伦理问题也日益凸显。如何确保智能体的决策符合人类的价值观和伦理标准，是一个需要深入探讨的问题。

五、未来研究方向

基于当前的研究结果和局限性，未来的研究可以从以下几个方面展开：

拓展到现实世界环境：

真实场景测试：将VIKI-R框架应用到现实世界的环境中，如仓库自动化、自动驾驶等，以验证其在复杂多变环境中的有效性和鲁棒性。
动态环境适应：研究如何使智能体能够适应动态变化的环境，如处理突发障碍物、应对不可预测的人类行为等。

优化计算资源使用：

高效算法设计：设计更高效的算法，减少训练时间和计算资源的需求，以满足实时性要求较高的应用场景。
分布式训练：利用分布式计算资源，如云计算平台，来加速训练过程，提高训练效率。

进一步探索智能体形态与能力的多样性：

新形态智能体：研究如何将VIKI-R框架应用到更多种类的智能体上，如无人机、水下机器人等，以拓展其应用范围。
能力整合：探索如何更有效地整合不同智能体的感知、决策和执行能力，实现更高效的协作。

关注安全性与伦理问题：

安全性保障：研究如何确保多智能体系统在协作过程中的安全性，如通过设计安全协议、开发故障检测与恢复机制等。
伦理框架构建：构建伦理框架，确保智能体的决策符合人类的价值观和伦理标准，如通过引入伦理约束、开发伦理决策算法等。

跨领域应用探索：

医疗、教育等领域：探索VIKI-R框架在医疗、教育等领域的应用潜力，如辅助手术、个性化教育等，以推动多智能体系统在更多领域的发展。
人机协作：研究如何使多智能体系统能够更好地与人类进行协作，如通过理解人类意图、提供实时反馈等，以提高人机协作的效率和安全性。

综上所述，本研究提出的VIKI-R框架为异构多智能体合作提供了一种新的解决方案，通过强化学习提升了多智能体系统的视觉推理和协作能力。尽管存在一些局限性，但未来的研究可以从多个方面展开，以进一步优化和拓展该框架的应用范围和性能。

ModelEngine社区

更多推荐

从崩溃到自愈：Temporal+MCP-Agent构建永不中断的AI工作流

你是否遇到过AI工作流执行到90%突然崩溃的绝望？训练了数小时的模型因服务器重启前功尽弃？团队协作时因某人未及时审批导致整个流程停滞？本文将展示如何通过Temporal与MCP-Agent的深度集成，彻底解决这些痛点，构建真正企业级的可靠AI工作流系统。读完本文你将掌握：- 3行代码实现工作流故障自愈- 零停机升级正在运行的AI任务- 跨团队协作的工作流信号机制- 从本地开发到生产集群