多智能体开发终极指南！告别手动搭建，MAS-GPT实现“一句话生成系统”，收藏这篇就够了！

MAS-GPT通过让大模型自动生成针对特定问题的多智能体系统（MAS），在8个基准测试上平均性能超越10种主流方法，推理时间仅为传统多智能体方案的1/8，开创了AI从"使用工具"到"创造工具"的新范式。

Python编程杰哥

1158人浏览 · 2025-10-22 19:55:21

Python编程杰哥 · 2025-10-22 19:55:21 发布

摘要：基于大型语言模型（LLM）的多智能体系统（MAS）在处理各类任务时展现出显著潜力。然而，在设计高效的多智能体系统时，现有方法严重依赖人工配置或多次调用先进的大型语言模型，导致系统适应性差且推理成本高昂。本文通过将多智能体系统构建过程重构为生成式语言任务，简化了多智能体系统的构建流程——该任务中，输入为用户查询，输出为对应的多智能体系统。为解决这一新型任务，我们将多智能体系统的表示统一为可执行代码，并提出一种面向一致性的数据构建流程，以创建包含连贯且一致的“查询-多智能体系统”对的高质量数据集。利用该数据集，我们训练出开源中型大型语言模型MAS-GPT，该模型能够在单次大型语言模型推理内生成适配查询的多智能体系统。生成的多智能体系统可无缝应用于处理用户查询，并输出高质量响应。在9个基准数据集和5个大型语言模型上开展的大量实验表明，所提MAS-GPT在不同设置下，持续优于10余种基准多智能体系统方法，充分证明了MAS-GPT具备高有效性、高效率和强泛化能力。

论文标题: "MAS-GPT: Training LLMs to Build LLM-based Multi-Agent Systems"作者: "Rui Ye，Shuo Tang， Rui Ge "发表年份: 2025原文链接: "https://arxiv.org/pdf/2503.03686"代码链接: "https://github.com/rui-ye/MAS-GPT"关键词: ["多智能体系统", "大语言模型", "复杂推理", "自动智能体生成", "协作AI"]

一、研究背景：当AI推理遇到"三重天花板"

1.1 现有方法的痛点与挑战

近年来，大语言模型（LLM）在各类任务上取得了惊人进展，但在复杂推理问题面前仍存在三大核心痛点：

• 能力瓶颈：即使是最先进的o1-preview模型，在AIME竞赛题上的准确率也仅为53.3%，仿佛遇到了"玻璃天花板"
• 效率困境：传统多智能体方法（如AgentVerse、GPTSwarm）需要多次LLM调用，推理时间长达64步，在实际应用中难以落地
• 泛化难题：专为数学优化的AFlow模型在MATH数据集上表现出色，但迁移到MMLU等其他领域时性能暴跌30%

这些问题的核心在于：推理任务的多样性与单一模型/固定智能体结构的矛盾。就像用一把瑞士军刀解决所有问题，虽然万能但不够专精；而定制化工具又缺乏灵活性。MAS-GPT提出了全新思路：让模型学会根据问题自动"锻造"最合适的工具组合。

1.2 范式转变：从手动设计到自动生成

图1：MAS构建范式对比

如图1所示，传统方法（中间模块）需要人工设计MAS结构，存在"Inadaptability! High Effort!“（适应性差、成本高）的问题；而MAS-GPT（右侧模块）通过"Adaptability! One Inference!”（自适应、单次推理）的方式，实现了多智能体系统的自动生成。

二、核心技术解析：MAS-GPT的工作原理

2.1 整体框架概览

MAS-GPT的核心创新在于将多智能体系统的构建过程完全交给AI自主完成。整个框架包含三个关键部分：可执行的MAS代码表示、数据集构建方法和端到端训练策略，形成了"表示-数据-训练"三位一体的技术体系。

2.2 可执行的MAS代码表示：智能体的"数字基因"

图2：MAS的统一代码表示

MAS-GPT最关键的突破是将多智能体系统表示为可执行的Python函数（图2），每个智能体对应不同颜色的代码块：

• 绿色模块：数学智能体（Math Agent）负责问题求解
• 橙色模块：反馈智能体（Feedback Agent）检查结果合理性
• 红色模块：优化智能体（Refine Agent）整合信息输出最终答案

这种表示方式实现了三大突破：

• 可执行性：直接通过call_llm()函数调用大模型执行，避免了传统方法中智能体交互的实现复杂性
• 灵活性：智能体数量和交互方式可根据问题动态调整，如简单问题可能仅需2个智能体，复杂问题可扩展到5个以上
• 可解释性：每个智能体的输入输出清晰可见，推理过程不再是"黑箱"，便于错误定位和性能优化

2.3 数据集构建：让模型学会"组装"智能体团队

图3：MAS-GPT的数据集构建与训练流程

为了让模型学会生成高质量的MAS，研究团队构建了包含11442个样本的专业训练集，关键步骤如图3上部所示：

2.3.1 双池构建（Pool Construction）

• Query池：收集各类推理问题（圆形图标）
• MAS池：人工设计多种智能体结构（三角形图标）

2.3.2 配对评估（Pair Evaluation）

对每个问题-智能体组合打分（1表示有效，0表示无效），形成大规模标注数据，例如：

• 浅蓝色圆形+深蓝色三角形→1（有效组合）
• 浅绿色圆形+深蓝色三角形→0（无效组合）

2.3.3 组内一致性选择（Pair Selection）

通过聚类算法将相似问题分组，确保同一组问题匹配相似的MAS结构，降低过拟合风险。

2.3.4 组内优化（Pair Refinement）

通过迭代调整增强问题与智能体的匹配度，提升MAS的任务适应性。

表1：MAS-GPT训练数据集统计

如表1所示，该数据集具有以下特点：

• 包含11442个样本（N_data）
• 平均784.8词的MAS结构描述（L_MAS）
• 7580种独特的智能体组合方式（N_MAS），确保模型学习到多样化的智能体构建策略

2.4 训练与推理机制

如图3下部所示：

• 训练阶段（浅蓝色背景）：通过监督微调（Supervised Fine-Tuning）让模型学习"给定问题生成MAS"的能力
• 推理阶段（浅绿色背景）：输入问题→MAS-GPT生成MAS→执行MAS得到结果，全程仅需一次LLM推理

三、实验验证：全面超越现有方法

3.1 主要性能对比

表2：在Llama-3-70B-Instruct上的性能对比

如表2所示，在8个基准测试（含4个域外测试）中，MAS-GPT以65.47的平均分领先第二名SELF-CONSISTENCY（61.58）达3.9分，尤其在以下方面表现突出：

数学推理任务

• MATH：68.65分，比SELF-CONSISTENCY（61.59）高7.06分
• GSM-H：62.40分，相对AGENTVERSE（41.40）提升21分

跨领域泛化任务

• H-EVAL+*：78.88分，在域外任务上保持高性能
• SciBench*：24.21分，相对第二名提升21%

3.2 模型兼容性分析

表3：在不同基础模型上的性能表现

如表3所示，MAS-GPT在不同规模的模型上均保持领先：

• Qwen2.5-72B-Instruct：平均74.46分，领先次优方法0.13分
• GPT-4o-MINI-2024-07-18：平均70.50分，超过第二名1.21分

这种跨模型的稳定性表明，MAS生成能力是一种通用技能，不依赖特定模型架构，具有良好的迁移性。

3.3 消融实验：关键组件的贡献

表4：数据集构建的消融实验

表4的消融实验证明了数据集构建三个关键设计的必要性：

• Select（组内一致性选择）：不使用时MATH分数从68.65降至60.26（↓8.39）
• Refine-A（智能体调整）：不使用时MATH分数从68.65降至66.23（↓2.42）
• Refine-R（推理过程引入）：不使用时MMLU分数从78.38降至75.96（↓2.42）

三者协同作用使模型性能达到最优，就像"智能体工厂"的三大生产线：Select确保原料质量，Refine-A优化生产流程，Refine-R提升产品性能。

3.4 性能与效率的权衡

图4：性能对比与效率分析

3.4.1 推理性能提升（图4a）

• 在o1-preview模型上：MAS-GPT准确率66.7%，比Single/Refine方法提升13.3%
• 在Deepseek-R1模型上：准确率90.0%，相对提升10.0%

3.4.2 与任务特定方法对比（图4b）

• 在AFlow的专长领域（MATH、GSM-Hard）：MAS-GPT性能（68%/62%）超过AFlow（65%/60%）
• 在域外任务（MMLU、HumanEval+）：MAS-GPT（78%/78%）远超AFlow（60%/45%）

3.4.3 效率优势（图4c）

• 推理时间仅为8步，是GPTSwarm（64步）的1/8
• 在相同推理成本下，性能比LLM Debate高4%；在相同性能下，推理时间仅为DyLAN的1/2

3.5 规模效应分析

图5：数据规模与模型规模对性能的影响

3.5.1 数据规模影响（图5a和5b）

• 执行故障率：从N=0时的5×10⁵次降至N=1E4时的接近0（图5a）
• 性能提升：在HumanEval-Plus上，N=1E4比N=0时性能提升近4倍（图5b）

3.5.2 模型规模影响（图5c）

• 32B模型在所有基准测试上均优于7B和14B模型
• MMLU数据集上，32B比7B模型性能提升24%，证明复杂任务需要足够的模型容量

这些结果揭示了一个重要规律：MAS生成是一项需要大量数据和足够模型容量的非平凡任务，简单模型或小数据集难以掌握这种高级能力。

四、总结：重新定义AI推理的未来

MAS-GPT通过将多智能体系统的构建过程"学习化"，解决了传统方法的三大痛点：

• 自适应能力：不再需要人工设计智能体结构，模型自动适配问题类型
• 效率革命：一次推理生成完整MAS，推理成本降低87.5%
• 泛化突破：在域外任务上性能保持率达92%，远超专用模型

如何学习大模型 AI ？

我国在AI大模型领域面临人才短缺，数量与质量均落后于发达国家。2023年，人才缺口已超百万，凸显培养不足。随着Al技术飞速发展，预计到2025年，这一缺口将急剧扩大至400万，严重制约我国Al产业的创新步伐。加强人才培养，优化教育体系，国际合作并进，是破解困局、推动AI发展的关键。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

2025最新大模型学习路线

明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛，没有明确的学习路线可能会导致新人感到迷茫，不知道应该专注于哪些内容。

对于从来没有接触过AI大模型的同学，我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

在这里插入图片描述

针对以上大模型的学习路线我们也整理了对应的学习视频教程，和配套的学习资料。

大模型经典PDF书籍

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路！

在这里插入图片描述

配套大模型项目实战

所有视频教程所涉及的实战项目和项目源码等
在这里插入图片描述

博主介绍＋AI项目案例集锦

MoPaaS专注于Al技术能力建设与应用场景开发，与智学优课联合孵化，培养适合未来发展需求的技术性人才和应用型领袖。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

为什么要学习大模型？

2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

在这里插入图片描述

适合人群

在校学生：包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础，有志于深入AGI大模型行业，希望开展相关的研究和开发工作。
IT行业从业人员：包括在职或失业者，涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验，至少1年以上的编程工作经验，对大模型技术感兴趣或有业务需求，希望通过课程提升自身在IT领域的竞争力。
IT管理及技术研究领域人员：包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势，主导技术创新，推动大模型技术在企业业务中的应用与改造。
传统AI从业人员：包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作，现需要快速补充大模型技术能力，获得大模型训练微调的实操技能，以适应新的技术发展趋势。

课程精彩瞬间

大模型核心原理与Prompt：掌握大语言模型的核心知识，了解行业应用与趋势；熟练Python编程，提升提示工程技能，为Al应用开发打下坚实基础。

RAG应用开发工程：掌握RAG应用开发全流程，理解前沿技术，提升商业化分析与优化能力，通过实战项目加深理解与应用。

Agent应用架构进阶实践：掌握大模型Agent技术的核心原理与实践应用，能够独立完成Agent系统的设计与开发，提升多智能体协同与复杂任务处理的能力，为AI产品的创新与优化提供有力支持。

模型微调与私有化大模型：掌握大模型微调与私有化部署技能，提升模型优化与部署能力，为大模型项目落地打下坚实基础。

顶尖师资，深耕AI大模型前沿技术

实战专家亲授，让你少走弯路
在这里插入图片描述

一对一学习规划，职业生涯指导

真实商业项目实训

大厂绿色直通车

人才库优秀学员参与真实商业项目实训

以商业交付标准作为学习标准，具备真实大模型项目实践操作经验可写入简历，支持项目背调

大厂绿色直通车，冲击行业高薪岗位

文中涉及到的完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

ModelEngine社区

更多推荐

从崩溃到自愈：Temporal+MCP-Agent构建永不中断的AI工作流

你是否遇到过AI工作流执行到90%突然崩溃的绝望？训练了数小时的模型因服务器重启前功尽弃？团队协作时因某人未及时审批导致整个流程停滞？本文将展示如何通过Temporal与MCP-Agent的深度集成，彻底解决这些痛点，构建真正企业级的可靠AI工作流系统。读完本文你将掌握：- 3行代码实现工作流故障自愈- 零停机升级正在运行的AI任务- 跨团队协作的工作流信号机制- 从本地开发到生产集群