【2025必学】智能体开发全攻略：产品经理必须知道的十个问题！

AI智能体是基于大模型构建的软件系统，能自主完成特定任务。文章详细介绍了智能体的分类、工作流设计、常见类型及四大设计模式(Reflection、Tool Use、Planning、Multi-agent)。相比直接使用大模型，智能体专注特定任务且效果更优。开发智能体需考虑成本、可靠性等因素，可采用LangChain等框架构建，并通过"LLM as a Judge"等方法评估效果。智能体被视为202

LLand520

894人浏览 · 2025-11-02 09:00:00

LLand520 · 2025-11-02 09:00:00 发布

今年AI智能体特别火，很多人把2025年称为智能体元年。我不知道你们怎么想，反正我是特别怕落后于时代，特别怕错过风口，所以赶紧学了一些智能体的知识。跟大家分享一下。

1、什么是智能体

先抛我浅薄的理解：能调用AI大模型来解决某个问题的软件系统，就叫AI智能体。

现在有很多媒体对“智能体”的概念特别较真儿，认为不能自主安排任务，智能程度没那么高的，就不叫智能体。

我找了找权威的定义，找到一份Gartner的报告。他是按智能程度的不同，定义了三个概念。下面是报告的原图。

Gartner认为，智能体可以分为三类：

（1）AI assistants（AI助手）：这种是智能程度最低的。例如，我通过“聊天”，用自然语言，让AI助手帮我写SQL语句，查询数据库。AI助手只能由人引导，完成特定任务。

（2）AI Agent（AI智能体）：“AI智能体”需要有一定的自主性。例如，我让AI帮我输出一篇关于“黑洞”的论文。AI智能体会“自主”安排三个步骤，来完成任务：一是搜索素材，二是把汇总撰写，三是文字校对。

（3）Agentic AI（代理式AI）：从Gartner这个图上来看，Agentic AI是包含AI agents的。Agentic AI概念更宽泛一些，只要不是纯聊天，而是能利用AI帮我们执行某项任务的，都算作Agentic AI。从名字上看，Agentic有“代理”的意思，就是说“能代替人类做事儿的AI”，就可以算Agentic AI。

最近吴恩达老师发布了一门“Agentic AI”课程，我觉得是目前最权威的课程了。

吴恩达老师对Agentic AI的定义，跟Gartner类似。不过吴老师还补充了一个建议——其实不必发明这么多新名词，大家都叫Agentic AI就完了。有的自主化程度高一些，有的简单一些，都很有价值啊，没必要区分。

2、什么是智能体工作流

简单说，智能体工作流就是智能体完成任务的步骤和流程。比如，智能体要完成 “写论文” 这个任务，就要拆分成“调研->撰写->校对”等步骤。

做智能体的关键就是如何把复杂任务，拆解成多个小步骤，让智能体工作流一步步执行，最终得到用户想要的结果。

当前，我们提到“搭建工作流”的时候，常指一种更高效的方式：通过可视化的“工作流编辑器”，无需大量编码，直接通过简单的拖拽，设置智能体的执行逻辑。

n8n是一款典型的工作流自动化工具，下面就是n8n的截图。

它可以很简单——接收消息，处理后自动返回邮件；也可以很复杂——设置条件判断、循环、嵌套等复杂逻辑。

国内字节的Coze平台比较知名，下面是一个自动生成PPT的工作流的截图。

3、几类常见的智能体

（1）轻量小工具

提到个人开发的智能体，很多时候我们联想到的就是这类功能比较单一的小工具。例如，AI算命、生成换脸视频、自动写需求文档等等。

好多自媒体宣传，有人靠做这种工具，在国外挣了大钱。也有人说，用AI做这些，就是没人会用的垃圾。

下图为通过AI算命，找到“正缘男友”的视频截图。左边是算命智能体的界面，右边是男友照片。

这类工具的痛点是“用户留存低”—— 如果想做，别只做‘单次功能’，要延伸后续服务，不然容易成“一次性工具”，赚不到长期的钱。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

（2）成熟的商业化产品

像AI编程、AI绘图、AI视频等类别的产品，已经进入成熟期了。MidJourney、GitHub Copilot、Sora 2.0等明星产品都已经进入规模化盈利阶段。

这些产品，从概念上讲，属于智能体。但这些厂商宣传的时候，都没有贴“智能体”这个标签。用户偏向于认为这些是AI模型，或者AI产品，较少把这些产品归类为AI智能体。可能是智能体的这个概念太技术了，所以大众接受度比较低吧。

下图为Sora2生成的宣传视频的截图（Sora2是目前世界上仿真程度最高的AI视频模型）。

（3）通用大模型中的智能体

现在的通用AI模型融入了很多智能体。我们常用的豆包、元宝、通义、kimi等，现在不仅能聊天儿，还能生成音乐、生成图片、生成视频等等，能干很多事儿了。

原来有一类智能体，是做AI辅助阅读的，我前几天还想做一期评测来着，后来发现，这类细分能力已经被整合了。阿里的“通义智文”就已经合并到通义APP，变成一个阅读助手功能了，见下图。

（4）小Baby智能体

通用大模型产品里面，还有一种“用户自定义”的智能体。这类智能体其实就是给AI设定一些提示词，没有复杂的工作流。豆包用户就可以创建这类智能体，有帮人写好评的，有帮人分析感情的……见下图。

很多懂技术的人可能会认为这个太简单，跟前面这几类相比，只能算一个还在上幼儿园的“小baby”智能体。

（5）基于浏览器/桌面操作的智能体

今年智能体大火，始于年初发布的Manus。Manus是一种将AI与浏览器结合的产品，可以替人类操作电脑、操作浏览器，完成一些复杂的任务。

例如，这类智能体可以根据指令，自动打开网站，帮我订票，省掉了我手动操作浏览器的过程。

下图是Manus界面，左边用户聊天告诉AI写一篇报告，右边Manus自动启动云浏览器，搜索信息、打开网页、复制文字和图片素材。

（6）企业级AI智能体

有一些智能体是专门面向企业开发的。例如，AI辅助做客服，AI自动生成商业数据分析报表、AI自动运维IT设备等等。

这类智能体一般要跟企业现有系统、知识库对接，所以落地难度很高。

4、用智能体跟“直接用大模型”有什么不一样

智能体也是基于通用大模型构建的，但它更专注于某个任务，而且比大模型多了调用工具的能力。例如，AI编程智能体，生成代码后，可以本地运行代码，如果有报错，就自动改进，修复bug，最后改进过的代码比第一版质量更高。

咱们看看跑分数据。下图是HumanEval对通用大模型和“编程智能体”（使用同样的模型）的代码编写能力的评分。

看图中的两条横线，第一条横线上，除了最左边的点是GPT3.5的得分，其他都是基于GPT3.5的智能体的得分。

明显看到，得分最低的就是纯大模型（48分），所有智能体得分都高于纯大模型（都在70分以上）。

而且，即使模型升级到GPT 4（67分），得分还是不如基于GPT 3.5的智能体，更不用说基于GPT 4的智能体了（都在80分以上）。

5、哪些场景适合智能体

理论上所有的场景都可以用AI重做一遍。不过目前受限于成本，还有AI的智能水平，有一些场景不太适合智能体。

做智能体之前，应该考虑以下几个因素：

（1）成本：智能体如果使用第三方模型API的话，需要按token付费。也就是说如果没法从用户身上收钱的话，就是做赔本买卖。

（2）不可靠性：AI幻觉难以避免，前段时间德勤公司就因为做的咨询报告中存在AI编造内容，被客户退款了。在监管严格的行业，智能体必须谨慎使用，采取足够的验证措施。

（3）实时性：AI目前是很慢的，我做过一个检测“敏感数据”的智能体。基本上检测一个文件需要几分钟。所以，没法做到实时检测员工外发的每一个文件，只能制定一个流程，重要系统的文件外发前，要求走一遍申请检测流程。

（4）数据：AI智能体要产生好的效果，需要足够的数据，以及跟必要的系统做好对接。不然硬做出来效果不好，准确率低，没人使用，那就尴尬了。

6、怎么设计智能体工作流

找到适合的场景之后，下面就开始设计、开发智能体。

设计智能体“工作流”的过程就是参考人类做事儿的步骤，看这些步骤能否用AI模型或工具替代。

例如，人类在写文章的时候，会先列提纲，然后在网上搜索资料，然后再汇总写出文章。

用智能体做呢，也是这些步骤——把问题提交给大模型，先让大模型去写出提纲，然后再调用搜索引擎API去搜索资料，再用大模型去汇总写文章。这就是一个简单的工作流。

再比如，咖啡店的老板要生成一个“销量对比图”。可以先让大语言模型读取数据，再生成画图的代码，最后调用统计画图工具执行代码，生成图表。

前面两个例子里面，我们拆解工作流的时候，细分步骤要么由大模型来完成，要么由大模型调用工具来完成。

下面是一些常见的模型和工具，供大家参考。构建工作流就是像拼积木一样把下面这些模块拼起来。

7、智能体四大设计模式

面对简单场景，我们可以凭借直觉逐步拆解工作流，从而满足需求。但遇到复杂场景时，则需要运用更高级的方法论 —— 设计模式。接下来将介绍业内较为通用的 4 种设计模式。

（1）Reflection模式【特色：迭代优化输出内容】

Reflection模式的核心是让大模型自我迭代，优化输出质量。人类写文章的时候会先写初稿，再写二稿……反复迭代修改，最后到终稿。智能体像人一样，迭代出来的东西质量更高。

下面以生成代码的智能体为例，看看它是怎么迭代的。

第一回合，用户给出一个需求，大模型输出一段代码，这段代码先别急着给用户。

第二回合，引入另一个大模型，让他去评估第一个大模型的代码里面有没有错误，把结果反馈给第一个大模型，让他优化。

第三回合，第二个大模型尝试运行一下输出的代码。把报错信息再反馈给第一个大模型，让他迭代优化。

……

几次之后，最终给用户的代码，就基本没有bug了。这就是引入一个迭代反思的过程，从而提升模型输出质量的“Reflection设计模式”。

再看一个生成图表的例子，通过“Reflection设计模式”，引入一个反思过程，让大模型提升输出图表的质量。

下图黄色方框中是给“反思大模型”的提示词，右侧是第一版图表和第二版图表的改进效果。

（2）Tool Use模式【特色：拓展能力边界】

Tool Use模式，就是我们提供给智能体提供一些工具（API接口、函数等），让智能体利用工具完成任务。

例如，给智能体三个工具：“查询日历”、“创建会议”、“取消会议”，并且告诉智能体：“可以利用这些工具{工具列表}，满足用户需求。”

用户让智能体“找个空闲时间，跟Jack约个会”。智能体就可以先用“日历查询”工具，找到空闲时段。再用“创建会议”工具，发出创建会议的邀请。

有了调用工具的能力，智能体就可以适用于更多用户场景。常用工具的包括：搜索引擎、数学计算、数据分析、数据库查询、对接电子邮件、日历、发消息、图像处理、OCR图像识别等等。

（3）Planning模式【特色：自主规划步骤】

Planning模式就是让大模型决定调用工具的流程和顺序。例如，让一个智能体根据我上传的照片，生成一个女孩读书的图片，并且生成一段语音描述。这就需要用到Planning模式。

在这个例子中，智能体要按正确的顺序，进行处理。先找到“姿势识别”工具，识别用户上传照片中男孩儿的姿势。然后，照此生成相同姿势的女孩图片。最后，根据图片内容生成一段描述性的文案，并转换成语音。

（4）Multi-agent collaboration【特色：虚拟团队协作】

Multi-agent collaboration模式就是管理多个智能体，协作完成任务。比如，你要做一个市场宣传册，那你可以虚拟出一个“设计师”智能体，一个写文案的智能体，虚拟出一个负责排版的智能体，一起来完成这个宣传册。

下面这个图是一个叫chat dev的智能体，它虚拟出了一个“公司”，有开发、有产品、有测试、有经理……

用户提出需求，这些小虚拟“人”就开始工作。每个人都可以去找其他人沟通、反馈。所有人互相交流一段时间，当所有人都宣布自己工作已完成的时候。最终的产品就开发完成了。

多智能体是更前沿的模式，应用相对较少。因为它产出的东西确实是比较混乱，很难保证稳定的效果。

8、如何设计智能体的界面

大部分人首先想到的，一定是设计成聊天界面。聊天界面确实好用，但有些场景，传统的表单和按钮交互更有效率。所以，最好是设计成一种“混合”模式。

例如，打车场景，用户想打车到“附近最好的烤串店”，那就先给用户一个聊天界面，描述其个性化需求，再通过“地图、列表、按钮”的组合，来让用户查看信息，确认目的地。

有些场景，要规范用户的输入，那就设计一个表单，让用户填写。避免用户输入内容过于宽泛，导致输出质量变差，甚至系统出错。

聊天界面适合于让用户描述需求，“确认和编辑内容”最好使用传统界面。例如，让用户用自然语言，生成一个统计报表。接着让用户通过点击和输入，手动微调图表类型、颜色样式。

9、怎么开发智能体？

（1）开发流程，开发智能体跟开发普通产品一样，也是“需求-开发-测试-上线-维护”这样的流程。

不一样的是，大模型输出的东西往往不可控，所以最好尽快构建一个最小化版本，进入测试和评估流程，“小步快跑”式逐步迭代。

（2）技术栈，可以采用 LangChain / LangGraph等开发框架，快速构建智能体的执行逻辑，集成AI模型（对接API或自研微调模型）、工具（API 接口、MCP等）、知识库。再叠加传统架构组件（微服务、中间件、数据库），组成完整方案。

如果只需要“简单的逻辑”、“单轮问答”的能力，直接在现有产品逻辑中，嵌入大模型API也是可以的。

产品经理可能没必要懂太多技术，我也讲不出来太多。我转一张图，感兴趣的同学可以了解一下常用的技术组件。

10、如何评估智能体的效果？

传统软件输出的结果一般是确定的。我们要评价它的准确率很容易。例如，语音识别，对了就是对了，错了就是错了。

智能体输出则比较难评。模型输出的文章、图片，要怎么来评价它的好坏呢？

一个常用的方法叫“LLM as a Judge”，就是引入另一个大语言模型，作为“评判官”。

例如，评估一个生成“销售统计图”的智能体时，我们给“评判官”模型一份如下图这样的提示词，让他对智能体1.0版本和2.0版本的输出分别打分。就可以评估出2.0是否有所改进。

如果我们发现智能体的效果很差，那怎么改进呢？

首先，应该先找到问题的根源。

例如，一个智能体最后输出的文章效果不好。那可能是没有找到合适的素材，也有可能是汇总时有曲解和疏漏。只有针对单个组件分别测试，才能找到真正的问题点。

下图列出了例子中各环节可能出现的问题。

找到问题之后，就可以进行改进了。

一般来说，如果是模型的问题，那我们可以尝试调整提示词，或者尝试更换智能水平更高的模型。

如果所有模型都表现得比较吃力。那有可能是这个场景太复杂了。这个时候我们可以尝试着把步骤进行拆分，把原来的一个步骤，分成多步来解决。

如果这个场景确实是比较特殊，其他改进方法都试了无效，那可以尝试微调模型。如果我们手头有足够的训练数据的话，就可以拿数据对模型进行二次训练。微调的成本会比较高，这招慎用。

如果发现不是模型的问题，而是工具的问题，那我们可以尝试调整工具的参数，或者更换厂商。例如，某个搜索引擎的结果不好，那可以换成其他家的搜索引擎；人脸识别的准确率不行，那可以调整模型的参数、阈值。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

01.大模型风口已至：月薪30K+的AI岗正在批量诞生

在这里插入图片描述

2025年大模型应用呈现爆发式增长，根据工信部最新数据：

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K（数据来源：BOSS直聘报告）

70%企业存在"能用模型不会调优"的痛点

真实案例：某二本机械专业学员，通过4个月系统学习，成功拿到某AI医疗公司大模型优化岗offer，薪资直接翻3倍！

02.大模型 AI 学习和面试资料

1️⃣ 提示词工程：把ChatGPT从玩具变成生产工具
2️⃣ RAG系统：让大模型精准输出行业知识
3️⃣ 智能体开发：用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你：
✔️ 大厂内部LLM落地手册（含58个真实案例）
✔️ 提示词设计模板库（覆盖12大应用场景）
✔️ 私藏学习路径图（0基础到项目实战仅需90天）

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

ModelEngine社区

更多推荐

从崩溃到自愈：Temporal+MCP-Agent构建永不中断的AI工作流

你是否遇到过AI工作流执行到90%突然崩溃的绝望？训练了数小时的模型因服务器重启前功尽弃？团队协作时因某人未及时审批导致整个流程停滞？本文将展示如何通过Temporal与MCP-Agent的深度集成，彻底解决这些痛点，构建真正企业级的可靠AI工作流系统。读完本文你将掌握：- 3行代码实现工作流故障自愈- 零停机升级正在运行的AI任务- 跨团队协作的工作流信号机制- 从本地开发到生产集群