具身智能新视角：重新理解AI Agent，探索人工智能的未来！

本文探讨了Agent（智能代理）系统的核心架构与投资机会。文章指出，Agent应被理解为由"感知-决策-行动"构成的动态闭环系统，而非静态功能组合。其中，感知层负责信息采集与预处理，决策层进行任务分解与规划，行动层实现具体执行与反馈。基于这一框架，作者认为相比直接投注具体应用，投资Agent基础设施（如记忆系统、工具生态、执行环境等）更具确定性价值。文章最后提供了大模型AI学习

我算是程序猿

834人浏览 · 2025-08-26 10:54:09

我算是程序猿 · 2025-08-26 10:54:09 发布

2025年 3 月，Manus 的火爆出圈，在科技圈和资本圈内迅速形成了一轮新的共识，它成功定义了市场对于 Agent 应用的初步形态。

一张总结性的框架图广为流传，它将 Agent 描述为一个具备自主理解、环境感知、任务规划、长期记忆和工具使用能力的复杂系统，其核心使命是自动化地完成人类交付的复杂任务。

这个框架无疑是准确的，它清晰地定义了一个成熟 Agent 所应具备的能力集合。然而，对于创业者与投资人来说，这样一份功能清单式的罗列并不能指导 Agent 开发和投资。它将 Agent 描绘成一个静态的组合体，却未能揭示其作为一个动态系统的内在运行机制。

信息与指令在Agent内部的传递路径、处理效率、以及在每个环节的价值增值或损耗，这些决定 Agent 性能与成本的关键因素，在静态框架下是完全不可见的，也无法有效判断技术瓶颈、规模化潜力以及真正的价值创造环节。

在近期深入学习具身智能的过程中，我逐渐形成了一个新的认知：软件形态的 Agent 与物理形态的机器人，在核心工作原理上没有本质区别。一个是在数字世界中交互，一个是在物理世界中行动。因此，具身智能领域经典的“感知-规控-运动控制”的动态循环视角，或许能提供一个更底层的、更具过程性的框架来重新理解 Agent。

基于这个判断，我尝试将 Agent 的工作流解构为“感知-决策-行动”的闭环，并以此为框架去梳理每一环节所依赖的Agent基础设施。这个分析框架将一个原本静态看待的 Agent 应用，分解为了三个功能清晰、可被独立审视的环节。每一个环节的实现，都依赖于背后特定的Agent Infra的支撑。例如，感知需要强大的记忆系统，决策依赖于先进的大模型，行动则离不开丰富的工具集和安全的执行环境。

通过拆解，可以看出在当前 Agent 应用层尚处于早期探索、高度不确定的阶段时，为其提供底层能力的各类Agent Infra，其市场需求反而更为明确和稳固。未来一年中投资 Agent Infra，比直接投资于单一Agent 应用更具确定性的投资机会。

一、Agent 如何工作？

感知

在一个 Agent 的工作流中，感知是所有后续行为的起点，核心是为 Agent 的决策提供充足且高质量的上下文信息。在全面、精准的信息输入下，大模型在理解、推理和规划等方面的潜力才能被最大程度地激发。

Agent 感知的信息可以被归纳为三个相互关联的类别：

首先是外部信息，包括用户直接输入的 prompt 和多模态信息，环境信息（例如 gemini 的 deep research 获取的环境信息是各个网页的网页内容），行动结果（上一轮 Agent 行动完产生的新信息等），以及通过 RAG 检索到的专业知识库内容。

其次是内部信息，它赋予了 Agent 连续性和个性化的能力，主要为短期对话的上下文（减少幻觉）和对用户长期偏好的记忆（决定一人一面个性化的关键）。

最后是本体信息，它定义了 Agent 自身的运行边界，包括其明确的执行目标、可调用的能力清单以及必须遵守的资源限制，这对于规避任务范围之外的幻觉至关重要。

一个高质量 Agent 与传统自动化脚本的区别，就在于其感知的主动性。Agent不会被动等待所有信息被喂给它，而是在识别到当前信息不足以支撑高质量决策时，能够主动发起提问以澄清用户意图，或启动搜索工具来补全缺失的关键数据。这种主动填补信息缺口的能力，是Agent自主性的体现，也是确保所有决策都建立在坚实信息基础上的前提。

在完成初步的信息采集后，Agent还必须对海量原始数据进行高效的预处理，例如，通过信息过滤机制，精准筛选出与当前任务目标高度相关的核心要素，并经由上下文整合，将这些新获取的关键信息与历史记忆、背景知识进行有机结合，形成一个干净、全面、高信噪比的决策输入。

决策

在感知层完成高质量的信息采集与预处理之后，Agent 便进入决策环节。衔接这两个阶段的关键步骤是 Context Engineering，通过工程化手段解决感知信息的海量性与大模型有限的计算资源之间的矛盾。

比如，通过上下文压缩技术，可以利用摘要或关键点提取来降低输入数据的 Token 消耗。同时，相关性排序能够根据当前任务目标对所有信息进行优先级排列，确保最高价值的数据被优先处理。此外，高效的提示词模板优化与按需渐进式加载信息等策略，最大化信噪比，尽可能减少从感知到决策链路上的计算开销与信息损耗。

接收到经过优化的上下文信息后，决策层便开始进行工作，其核心任务是将上下文信息转化为一份具体、可执行的行动计划。

这个过程始于深度的意图理解，在此基础上，复杂的任务目标会被系统化地分解为一系列更小、更易于管理的可执行子任务。针对每一个子任务，Agent 会生成CoT，进行严谨的多步骤逻辑推导，并在此过程中做出关键的工具选择，判断调用何种内部大模型能力或外部工具来最高效地完成该步骤。

经过对所有子任务的规划与资源匹配，决策层最终会制定出一套最优的行动策略，并将其组织成一份逻辑清晰、序列明确的CoA。

行动

行动层是 Agent 价值实现的最终环节，负责将决策层输出的CoA，转化为在数字世界中具体、可衡量的效果。

Agent 的行动主要通过几种方式展开。

首先是在一个安全可控的数字执行环境中进行交互，例如在隔离的沙盒内运行代码、在浏览器环境中操控网页、或是在集成开发环境（IDE）里编写和修改程序。

其次是通过标准化的接口调用外部工具，通过 MCP协议调用 Function Call 来执行搜索、支付、文件读写等特定功能，或通过 A2A 协议与其他 Agent 进行协同。此外，行动也包括利用大模型自身的能力直接进行内容生成，以创造文本、代码或多媒体内容。

好的行动层，并不仅仅是指令的盲目执行者，它必须包含一套强大的运行时监控与错误处理机制，以确保整个过程的可靠性与韧性。

反馈循环

感知，决策与行动并非一次性的线性过程，而是一个持续迭代的动态循环。这个闭环反馈是 Agent 得以从经验中学习并持续进化的核心机制。

循环始于结果感知，即 Agent 对自身行动所产生的实际效果和环境变化进行观察。

紧接着，系统会进入效果评估阶段，将感知到的结果与最初设定的目标进行比对，以判断行动的成功程度与偏差。

评估结论将直接触发策略调整，系统会根据此次行动的成败经验，修正其CoT 及 CoA。

这一过程的不断重复，最终构成了 Agent 的持续学习能力，使其能够从每一次与环境的交互中优化自身行为。

高效的感知确保了决策所依赖的基础信息是准确的，精确的决策使得行动更具针对性与成功率，而有效的行动则会产生清晰的环境反馈信号，为下一轮的感知循环提供高质量的输入。正是这种紧密耦合的闭环机制，赋予了 Agent 强大的环境适应性与自我优化能力。

从投资视角看，一个拥有更快、更精准反馈循环的 Agent，其进化速度将呈现指数级增长，从而在长期竞争中建立起护城河。

二、Agent 核心 Infra 有哪些？

Agent 所展现出的强大能力，并非仅仅源于大模型的突破，而是构建在一整套协同的基础设施之上，大模型仅仅是基础设施之一。这些基础设施的存在，一方面极大地降低了开发者构建、部署和管理 Agent 的门槛，加速了整个应用生态的创新迭代；另一方面，它们也为 Agent 本身提供了超越大模型原生范畴的能力。

这些基础设施并非孤立的模块，而是一个高度集成的系统，通过编排框架将记忆、外部工具、执行环境等模块的无缝协同，Agent 才得以高效、可靠地执行从感知到行动的完整闭环，从而处理那些需要多步骤、跨平台的复杂任务。

从产业发展和投资的视角看，这一系列基础设施的成熟度，决定了整个 Agent 生态的能力边界。随着这些底层技术的不断发展和完善，Agent 的自主性、可靠性和能够处理的任务复杂度将持续扩展。

最终，将支撑 Agent 在越来越多特定领域中，逐步接近甚至超越人类的执行水平，而定义和提供这些核心基础设施的公司，也将在价值链中占据至关重要的战略地位。

大模型

大模型是Agent的核心智能引擎，为Agent提供了基础的理解、推理和生成能力。

记忆系统

记忆系统允许Agent超越单次对话的限制，让原本上下文长度比较短的大模型具备了回忆和学习能力，使其能保持连续性、理解用户习惯并适应环境变化，保持输出长期一致性和学习进化能力：

短期记忆：
- 上下文窗口管理：优化当前对话的内容保留
- 信息压缩：通过摘要等技术减少记忆占用的token数量
- 会话状态追踪：记录对话进展和临时变量
长期记忆：
- 向量数据库：如Pinecone、Weaviate、Chroma等，存储和检索语义信息
- 知识图谱：捕捉实体间的关系，支持复杂推理
- 记忆类型：情景记忆（事件）、语义记忆（事实）、程序记忆（技能）
记忆管理：
- 记忆检索：通过相似度搜索等方式找到相关历史信息
- 记忆更新：随着新信息的获取，动态更新长期记忆
- 记忆分层：按重要性和时效性组织记忆内容

工具生态

工具生态系统扩展了Agent的能力边界，使其能够与外部世界交互：

通信协议：
- MCP协议：标准化模型与工具的交互方式
- A2A协议：支持不同Agent之间的通信和协作
功能性工具：
- 搜索工具：如Tavily、Serper等，提供网络信息获取能力
- 数据处理工具：ETL工具、数据分析库等
- 身份工具：给 agent 身份让其在互联网中行动
- 支付工具：支持Agent执行交易和支付操作

执行环境

执行环境为Agent提供一个隔离的、AI 原生的环境，供AI安全、高效的交互、产生内容，并可以观察行动后对执行环境的变化：

沙盒环境：如E2B，提供隔离的代码运行环境
浏览器环境：如Browseuse、Browserbase等，允许Agent浏览、操控网页
IDE环境：处理代码内容
画布环境：处理图像、视频、音频等多媒体内容

编排系统

编排系统将Agent Infra 集成，并通过特定的流程协调各 Infra 的能力，确保复杂任务能够顺利完成。

例如低代码agent 开发平台：n8n、dify、coze，已经集成好了 agent infra，只需要用户编写工作流。

原生agent 开发平台：langchain、langgraph，通过编写代码来实现各种功能和逻辑，兼容开源模型和数据库，可集成任意agent infra。

J.A.R.V.I.S. for PMs: Automate Anything with n8n and Any MCP Server

三、如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

01.大模型风口已至：月薪30K+的AI岗正在批量诞生

在这里插入图片描述

2025年大模型应用呈现爆发式增长，根据工信部最新数据：

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K（数据来源：BOSS直聘报告）

70%企业存在"能用模型不会调优"的痛点

真实案例：某二本机械专业学员，通过4个月系统学习，成功拿到某AI医疗公司大模型优化岗offer，薪资直接翻3倍！

02.如何学习大模型 AI ？

🔥AI取代的不是人类，而是不会用AI的人！麦肯锡最新报告显示：掌握AI工具的从业者生产效率提升47%，薪资溢价达34%！🚀

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

1️⃣ 提示词工程：把ChatGPT从玩具变成生产工具
2️⃣ RAG系统：让大模型精准输出行业知识
3️⃣ 智能体开发：用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你：
✔️ 大厂内部LLM落地手册（含58个真实案例）
✔️ 提示词设计模板库（覆盖12大应用场景）
✔️ 私藏学习路径图（0基础到项目实战仅需90天）

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

ModelEngine社区

更多推荐

从崩溃到自愈：Temporal+MCP-Agent构建永不中断的AI工作流

你是否遇到过AI工作流执行到90%突然崩溃的绝望？训练了数小时的模型因服务器重启前功尽弃？团队协作时因某人未及时审批导致整个流程停滞？本文将展示如何通过Temporal与MCP-Agent的深度集成，彻底解决这些痛点，构建真正企业级的可靠AI工作流系统。读完本文你将掌握：- 3行代码实现工作流故障自愈- 零停机升级正在运行的AI任务- 跨团队协作的工作流信号机制- 从本地开发到生产集群