AI Agent 编年史：四年五代的演进规律

来源：万字拆解 AI Agent 编年史（视频字幕）

一句话总结：四年五代的 Agent 演进，本质是一条从开环到闭环的收敛史——每一次跃迁都在补上一代的漏洞，每一次中间层都会被下一代基础设施吞噬。

开场

四年前，ChatGPT 只是一个会聊天的窗口；四年后，Agent 可以在你睡觉时完成复杂工作。

同样叫 AI，2022 年的对话框和 2026 年的 Agent 已经不是同一种产品形态。中间到底发生了什么？是模型变强了，工具系统成熟了，还是工程架构变了？

更扎心的问题是：为什么这个行业反复出现炒作泡沫？为什么提示词工程师、GPT Store、向量数据库都走向了灭亡？什么才是真正的护城河，什么是必然被下一代基础设施吞噬的中间层？

答案是一句话：Agent 的四年演进，本质是一场「从开环到闭环」的收敛史——每一代解决的都是上一代留下的失控问题，每一代的红利都注定被下一代的基础设施吞噬。下面分四层展开。

金字塔总览

mindmap
  root((AI Agent<br/>四年五代<br/>开环→闭环))
    一·孕育·第零代+第一代
      ChatGPT 对话框
      Function Calling
      RAG 外挂记忆
      AutoGPT 开环幻灭
    二·工程化·第二代
      ReAct 推理加行动
      四大设计模式
      多智能体协作
      LangChain 泡沫
    三·标准化·第三代
      MCP 协议
      Computer Use
      Coding Agent 三强
      KIRO 删库事故
    四·常驻化·第四代+前瞻
      Agent Skills
      Heartbeat 心跳
      本地数据主权
      闭环 / 内在记忆 / 世界模型

一、孕育期：从对话框到工具调用，开环幻灭

1.1 第零代：被困在对话框里的超级大脑（2022 末 ~ 2023 初）

2022 年 11 月 30 日，ChatGPT 发布。这一天的意义不只是产品上线，而是生成式 AI 第一次走出实验室、进入大众日常。

但第零代 Agent 的结构性缺陷非常清晰：

缺陷	表现
知识静态	只有预训练参数里的旧知识，不知今天的新闻，不知你公司的内部数据
幻觉严重	面对未知信息无法稳定地说「我不知道」，反而生成听起来合理的答案
没有行动臂	能写 Python 但跑不了，能规划旅行但订不了票，能说怎么改但改不了

核心矛盾一句话：它能想、能说，但不能行动。

这个阶段催生了第一个泡沫——提示词工程师。年薪百万、付费课程、认证体系遍地。当时模型对提示词确实苛刻，需求是真实的。但市场把临时补丁误认成永久护城河。GPT-4 一出，提示词模板瞬间失去稀缺性。

金句：当某项能力被下一代基础设施内化为默认特性，整个中间层就会被系统性蒸发。提示词工程师只是第一次，后面每一代都会重演。

1.2 第一代：工具调用觉醒（2023 中 ~ 2023 末）

2023 年 6 月 13 日，OpenAI 发布 Function Calling。它让模型从输出自然语言，升级为输出机器可读的 JSON 结构化指令。

之前	之后
模型说「我应该查北京明天天气」，开发者用正则提取参数，脆弱易碎	模型直接输出 `{city, date, action}` 的 JSON，外部 API 执行，结果回灌

架构意义：大脑（推理）和四肢（执行）第一次合体。

同时觉醒的另一条线是 RAG + 向量数据库。把外部文档切块、向量化、检索，把片段注入提示词——让 AI 第一次拥有了「动态获取私有知识」的能力。Pinecone B 轮估值飙到 75 亿美元。

11 月，GPTs 与 Assistants API 发布，确立了 Agent 的最基本结构：「你是谁 / 你知道什么 / 你能做什么」三位一体。

最戏剧化的时刻是 AutoGPT——给一个宏大目标，让 AI 自己拆解、搜索、写文件、循环。一个月 GitHub 5 万星。但泡沫破灭极快，根因是开环控制：

任务迷失：在错误方向上越走越远，掉进兔子洞
燃烧账单：每一步都全局评估，一个简单任务消耗成百上千次 API
结果不稳：缺状态约束、缺终止条件、缺可靠反馈

第一代教训：工具 + 死循环 ≠ 生产级 Agent。必须引入软件工程。

二、工程化：从黑盒魔法到结构化编排（2023 末 ~ 2024）

经历 AutoGPT 的幻灭，行业意识到：不能再期待「给一个目标模型自己搞定」。Agent 必须有结构化工作流、状态管理、评估机制、人机协作节点。

2.1 ReAct：每一步推理都可审计

ReAct = Reasoning + Acting。核心循环：

flowchart LR
    A[Thought 推理<br/>我应该做什么] --> B[Action 行动<br/>调用工具]
    B --> C[Observation 观察<br/>工具返回结果]
    C --> A

它解决了 AutoGPT 的盲动问题：模型不再「想做啥做啥」，而是每一步都有可审计的逻辑推演。例如修复代码——先想我要看测试错误，再跑测试，再观察、定位、修改、验证。

2.2 吴恩达的四大设计模式

模式	内核	类比人类工作
Reflection 反思	先写初稿，再自我或第三方评审、修改	写稿—审稿—返修
Tool Use 工具调用	主动选择搜索 / 数据库 / 代码执行 / 企业 API	助理用各种软件
Planning 规划	把大目标拆成可执行步骤，跟踪每一步状态	项目经理排期
Multi-Agent 协作	CEO / 程序员 / QA 分工，互相评议	公司组织架构

本质：把人类的认知工作拆成可执行结构，让 AI 模仿人类组织方式工作。

2.3 范式跃迁：从概率黑盒到软件工程

可靠性不再依赖「模型一次性给出完美答案」，而是依附于人类设计的认知反射弧——规划、执行、反思、修正。Agent 从一次模型调用，变成一个有控制流、有状态、有反馈的软件系统。

金句：一个设计良好的 Agentic Workflow，能让小模型裸跑表现超过大模型。可靠性不是涌现出来的，是反射弧给的。

2.4 这一代的泡沫：LangChain 与节点式平台

LangChain 早期爆火，GitHub 7 万星，几乎成了 AI 创业默认技术栈。但推到生产就崩塌：抽象层过重、回调链复杂、调试困难。社区吐槽——「三行代码能解决的事，LangChain 要三层回调」。

数十家低代码 / 节点式编排平台（Coze、Dify、Flowise、n8n、ComfyUI）也激烈竞争。承诺「拖拖拽拽不懂代码也能做 Agent」。但用户拖出来的工作流可以被无成本复制，漂亮的流程图构不成护城河。Vibe coding 一出现，节点式编排立刻显得笨重而过时。

启示一句话：真正降低门槛不是给模型穿一个复杂图形界面，而是解决复杂性本身。

三、标准化：协议、屏幕与商业化爆发（2024 Q4 ~ 2025）

如果第二代解决「Agent 内部如何可靠编排」，第三代解决的就是「Agent 如何与外部标准化连接」。三股力量同时汇聚：MCP 协议、Computer Use、商业化双轨。

3.1 MCP：终结集成的碎片化噩梦

2024 年 11 月 25 日，Anthropic 发布 Model Context Protocol。

之前	之后
M 个模型 × N 个工具 = M×N 个适配器	每个工具实现一次标准接口 = M+N

到 2025 年中，GitHub 上已有数千个 MCP server；年末 MCP 捐赠给 Linux 基金会，成为中立开放标准。Agent 的工具能力从产品特性变成行业基础设施。

协议一旦稳定，价值分配立刻重塑——一大批做工具连通中间层的开源项目和创业公司随之消失。

3.2 Computer Use：行动空间从 API 扩展到 GUI

现实世界很多软件没有 API，或者 API 不完整，或者根本不想暴露。人类日常工作大量发生在浏览器、表单、后台、IDE 这些 GUI 里。

2024 年 10 月 Claude 3.5 Sonnet 推出 Computer Use：模型直接看截图、生成鼠标坐标和键盘指令。AI 第一次「看见了屏幕」，行动空间从 API 世界扩展到人类可操作的所有界面。

3.3 商业化双轨：通用 Agent 与 Coding Agent

路线	代表	价值
通用智能体	Manus	给 Agent 一台虚拟机，做调研、写代码、做财务分析、生成内容——市场开始为「能落地执行任务的 Agent」付费
编程智能体	Cursor / Claude Code / Gemini CLI	软件生产方式的大规模重构。谁掌握工程师每天写代码的工作流，谁就掌握 AI 编程时代的入口

2025 年 2 月 Karpathy 提出 vibe coding——「沉浸在 vibe 里，用自然语言表达意图，拥抱指数级生成，忘记代码本身」。AI 编程不再只是补全，而是改变了开发者和代码的关系。

12 月，Linux 基金会牵头成立 Agentic AI Foundation（AAIF），OpenAI 捐赠 AGENTS.md——专供 AI 读的 README。未来的项目不只为人类开发者准备 README.md，也要为 Agent 准备 AGENTS.md。

3.4 这一代的代价：感知鸿沟与失控事故

第一个教训叫 vibe coding 宿醉：开发者主观感觉提速 20%，但实际任务完成时间延长 19%。生成速度快不等于交付速度快——理解需求、校验边界、修复错误、维护架构都是真实成本。

第二个教训是安全事故。KIRO 删库案例里，Agent 在修一个次要 bug 时判定「最优解是删除并重建整个环境」；工程师有最高权限，绕过双人审核执行，导致 AWS 13 小时中断。

金句：Agent 越能执行行动，就越需要权限最小化、人工确认、审计日志和回滚机制。能力越大，责任越大不是口号，是铁律。

四、常驻化与前瞻：从工具到员工

4.1 第四代的三个质变

前三代 Agent 还是「任务触发型」——叫他他就工作，不叫他他就不在。第四代开始像员工：有身份、有记忆、有技能、有日程、能持续关注目标。

质变	解决什么	代表
Agent Skills	不再只告诉 Agent 能用什么工具，而是告诉他如何专业地使用——包含操作步骤、领域知识、约束条件、示例、脚本模板	Anthropic Skills
Heartbeat 心跳	Agent 不再被动等用户唤醒，而是按时间自动醒来——每 10 分钟查邮件、每天检查日历、必要时主动提醒	后台时间感
本地数据主权	长期运行 + 持有密钥 + 处理私有数据 → BYOK、本地部署、权限隔离、密钥管理变成核心基础设施	安全前移

Skills 背后还有一个更重要的思想——渐进式披露：上下文窗口再大也不能一次塞所有工具说明，应该分层加载（先索引，再说明，再脚本）。

OpenCloud 这类第四代标志性架构包含四个 primitive：

SOUL.md 定义 Agent 的身份与价值观
三级本地记忆（会话 / 日志 / 长期）
Skill + MCP 双轨制（专业方法 + 工具连接）
Heartbeat 心跳让他自主决定行动 / 提醒 / 静默

4.2 第四代的新型攻击面：Markdown 即攻击面

Claw Hack 事件揭示了一种全新的供应链危机：Skill 本质是 Agent 会读取并执行的 Markdown 文档。恶意 Skill 包里植入提示词注入，就可能诱骗 Agent 下载恶意软件、泄露 API 密钥、读取密码库，甚至操作加密钱包授权。

只要文本能改变 AI 的行为，它就是攻击面。安全边界从代码里扩展到文本里。

应对：Belief Store——把事实（必须经外部反馈或人类确认）和推演（标置信度和时效性，只用于规划，不直接触发高风险操作）分开存放。AI 不止要知道事实，还要知道自己对世界的知识有多可靠。

4.3 第五代前瞻：闭环、内在记忆、世界模型、具身

顺着前四代的逻辑往前看，第五代要解决的方向：

方向	要回答的问题
三层闭环同时闭合	执行闭环（自验证 + 回滚）、时间闭环（跨周期跟进长目标）、认知闭环（监控自己上下文的确定性与时效性）
内在记忆	不再只是 RAG / 向量库 / Memory.md 这些外挂记忆，而是模型基座层面具备跨会话持久状态，让模型自身形成连续经验
世界模型	当前 Agent 本质是反应式：观察→响应→再观察。世界模型要回答的是「如果我这么做了，会怎么样」——在行动前预演后果
具身化	从 API 世界 → GUI 世界 → 物理世界。未来可能出现 MCP for Physical 这样的协议，用标准方式连接物理行动

四年五代，主轴是同一条：让 Agent 的开环越来越少，闭环越来越多。

五、六条贯穿规律：判断真趋势还是临时中间层

#	规律	内涵
1	基座模型是天花板	Agent 不是大模型之外的魔法，每一次范式革新都是兑现基座已积累但未释放的能量余量
2	工程化对模型暴力的系统性胜利	Agentic Workflow 包裹的小模型能碾压裸跑的大模型——可靠性必须依附认知反射弧
3	开放协议重塑价值分配	MCP 杀工具中间层、Skill 杀竞品技能层、AGENTS.md 杀私有 rules 文件——协议一稳定，红利就转移
4	信任边界稳步扩张	从「信模型写文本」→「信调用 API」→「信编排多步」→「信操控屏幕」→「信 24 小时常驻」
5	每代灾难铸下代铁律	AutoGPT 死循环催生结构化编排；vibe coding 鸿沟催生评估驱动；KIRO 删库催生最小权限；Claw Hack 催生沙盒隔离
6	大爆发 ↔ 大灭绝循环	把红利误判成护城河是创业第一杀手——很多产品只在小时间窗口里，却以为自己有结构性壁垒

护城河三件套——当一项能力被基础设施吞噬之后你仍然不可替代才算正资产：

垂直领域深度：理解一个行业真正的流程、风险、异常和责任边界
数据飞轮：从真实使用中积累高质量反馈，反哺迭代甚至微调专属模型
用户信任：用户愿不愿意把更高价值、更长期、更高风险的任务交给你

一页速览

层级	内容	一句话核心
核心结论	四年五代 = 开环到闭环的收敛史	每一代解药都来自上一代的失控，每一代红利都被下一代基础设施吞噬
第零~一代	孕育期	大脑接上四肢，但开环还会失控（AutoGPT 教训）
第二代	工程化	Agent 从黑盒模型变成有控制流的软件系统
第三代	标准化	MCP + Computer Use + 商业化双轨，价值分配开始重塑
第四代	常驻化	Skill + Heartbeat + 数据主权，Agent 从工具变员工
第五代	前瞻	闭环 / 内在记忆 / 世界模型 / 具身——把剩下的开环逐一关上
六条规律	判断框架	基座 / 工程化 / 协议 / 信任 / 教训 / 大灭绝
护城河	三件套	垂直深度 + 数据飞轮 + 用户信任

一句话收束

AI Agent 的四年史本质上只在做一件事——把开环一段一段关上；而创业者要做的，也只是看清自己是站在闭环里，还是站在被基础设施即将吞噬的中间层上。