程序员必看！从零构建你的第一个AI Agent：超详细入门教程（建议收藏）

原创于 2026-04-08 13:47:22 发布 · 508 阅读

11 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能 #大语言模型 #AI #程序员 #大模型

一直以来，都很少有人把“怎么从零做出一个 AI Agent”这件事，真正整理成一套谁都能看懂、照着就能上手的完整教程。

如果你愿意花一点时间读完这篇文章，今天就有机会把自己的第一个 Agent 做出来，而且是一个真正对你有用的 Agent。因为为了“做 Agent 而做 Agent”没有意义，重点是它到底能替你解决什么问题。

所以作者做了什么？

他把来自 Anthropic、OpenAI，以及网上其他研究者和实战者的零散资料全部收拢起来，再结合自己和 Claude 一起整理的理解，拼成了一份给普通人看的完整入门课。目标很明确：不是讲概念炫技，而是让你今天就能开始做。

这篇文章很长，但结构非常清楚。为了方便你跳着读，作者把全文拆成了 8 个部分，每一部分都配了插图，你可以直接挑自己最关心的部分开始看：

Agent 是怎么工作的
五种工作流
如何搭建你的 Agent
怎么使用工具
怎么给 Agent 加记忆
怎么让 Agent 真正在现实里跑起来
多 Agent
最后的收束

好，直接开始。

1：AGENT 是怎么工作的

这一部分很重要。你要是连这个都不知道，就根本不知道自己到底需不需要 Agent。所以先从这里讲起。

所有 Agent 共用的核心循环是这样的：

用户输入 → LLM 思考 → LLM 决定（直接回答，或者调用工具）→ 如果调用了工具：执行工具，把结果喂回去 → 重复

LLM 是负责推理的“大脑”。工具是负责干活的“双手”，比如计算器、网页搜索、文件读写。记忆则像一个“记事本”，用来记录前面发生过什么。无论你用的是 LangGraph、CrewAI、Anthropic 的 SDK，还是 OpenAI 的 Agents SDK，本质上都只是把这个循环包装得更方便而已，它们没有改变这个核心。

增强型 LLM

普通 LLM 只能吃进文本，再吐出文本。增强型 LLM 则多了三种能力：

工具：模型可以调用的函数，比如计算器、数据库、API、文件操作等。Anthropic 和 OpenAI 都用 JSON Schema 来描述工具；Anthropic 用的是 input_schema，OpenAI 则把函数包在带 parameters 的 function object 里。
检索：能从外部来源拉取相关信息，比如搜索引擎、文档、向量数据库。
记忆：能通过消息历史或者其他持久化存储，在多轮交互中保留信息。

工作流和真正的 Agent 有什么区别

这两者的区别，在你决定怎么做的时候非常关键。工作流是确定性的：执行顺序由你的代码控制，同样的输入总会走同样的路径。它很适合步骤固定、定义明确的任务，而且更便宜，因为 LLM 调用次数更少。Agent 则是动态的：下一步怎么做，由 LLM 自己决定，它还可能反复调用工具。它更适合开放型任务，但成本也更高。对你来说，判断要不要做 Agent，最好的起点通常不是直接上 Agent，而是先从一个简单工作流开始，看看这个东西是否真的有必要继续升级成自治 Agent。

2：五种核心工作流模式

信不信由你，大多数问题其实根本不需要“完全自治”的 Agent。Anthropic 文档里总结的这五种模式，已经覆盖了很多常见场景，而且现在也被广泛采用。每一种模式都依赖增强型 LLM。

模式 1：提示链（Prompt Chaining）

它是什么：把任务拆成一连串顺序步骤。每一次 LLM 调用都处理前一步的输出。步骤之间可以加程序化“关卡”来检查质量。

什么时候用：适合那些能清楚拆成固定子任务的工作。你用速度换准确率，因为每一次 LLM 调用都更简单。

例子：先生成营销文案，再把它翻译出来；先写大纲，确认关键话题都覆盖了，再写完整正文。

模式 2：路由（Routing）

它是什么：先给输入做分类，再把它送到对应的专用处理器。每个处理器都有自己专门优化过的提示词。

什么时候用：当不同类别的输入需要完全不同的处理方式时。客服分流就是最经典的例子。

模式 3：并行化（Parallelisation）

它是什么：同时发起多次 LLM 调用。Sectioning 是把任务切成互不依赖的小块并行处理；Voting 则是让同一个任务跑多次，再把结果汇总，以提高置信度。

什么时候用：当子任务彼此独立时，用 Sectioning；当你需要对关键判断做“集体表决”时，用 Voting。

模式 4：协调者-执行者（Orchestrator-workers）

它是什么：一个中心 LLM，也就是协调者，动态拆解任务，再把子任务分配给执行者 LLM。和并行化不同的是，这里的子任务不是你预先写死的，而是协调者在运行时决定。

什么时候用：适合那些你事先没法预测结构的复杂任务，比如跨多个文件的代码生成、研究任务、写报告等。

模式 5：评估者-优化者（Evaluator-optimiser）

它是什么：一个 LLM 先生成结果，另一个来评估并给反馈。如果评估不过关，反馈会回流给前者。这个循环会一直继续，直到质量达标。

什么时候用：当你有明确的评判标准，而且反复迭代确实能带来明显提升时，比如翻译、代码生成和写作任务。

3：搭建你的 Agent

这才是你点开这篇文章真正想看的部分。开始吧。

那到底怎么把“我想做一个能完成 XYZ 的 Agent”变成一个真正能跑的东西？

最容易理解的方法就是：

把它的工作写清楚
决定它需要哪些工具
告诉模型该怎么表现
用 5 个真实例子测试它
只有在它失败时，再增加复杂度

你不需要先精通五种框架，才能做出第一个 Agent。对我和你来说，最适合入门的其实就是：

如果你想做一个像“能操作环境的助手”那样的 Agent，能用工具、文件、Shell 命令、网页动作，而且很适合写代码，那就选 Anthropic
如果你想要一个更干净的开发者 SDK，自带托管工具、任务交接、护栏，而且更容易走向生产环境，那就选 OpenAI

这篇指南主要就围绕这两个来讲。

最简单的心智模型

当你要搭建 Agent 时，先回答这四个问题：

最终结果是什么？
这个 Agent 最后到底要产出什么？

例子：

“研究一个主题并写一份总结”
“读取我的笔记并把它们变成抽认卡”
“看客服请求并把它们分到正确的类别”
“比较几个产品并告诉我最好的选择”
“审阅我的内容并按我的语气重写”

它需要什么信息？

它需要网页搜索、文件、数据库、表格、CRM，还是只需要用户当前发来的消息？
它被允许做什么动作？

它只能回答？还是可以搜索？可以改文件？可以发邮件？可以写代码？可以调用你自己写的函数？
它必须遵守哪些规则？

包括语气、格式、约束、安全规则、不确定时怎么处理，以及什么样才算“好”。

只要你能把这四个问题答清楚，通常一天之内就能做出第一个版本的 Agent。

一个稍后会展开的速成技巧：把你的想法直接丢给 LLM，让它深度思考，然后让它替你把上面这四个问题都答出来。

在真正动手之前，先用 AI 帮你把 Agent 设计清楚

一个很实用的办法是：编码之前，先让 Claude 或 ChatGPT 帮你把 Agent 定义清楚。

你可以直接贴这样的提示词：

我想做一个 AI Agent。我的目标：[描述你想让它做什么]用户会这样提问：[写 5 个真实一点的例子]这个 Agent 应该能访问：[网页搜索 / 文件 / 计算器 / 自定义 API / 其他都不要]它必须始终：[列出不能妥协的规则]它绝不能：[列出边界]请把这些整理成：1. 一份清晰的 Agent 规格说明2. 一段 system prompt3. 一份工具清单4. 第一版路线图5. 10 个测试用例

这一个提示词，就足以帮初学者把一个模糊想法变成可以真正落地的方案。

一套适合新手的 Agent 设计公式

每次都用这个结构：

Agent = 角色 + 目标 + 工具 + 规则 + 输出格式

例子：

角色：加密项目研究助手
目标：找到准确的信息，并把它清楚总结出来
工具：网页搜索、文件搜索、计算器
规则：要给出处，不要乱猜，遇到不确定的地方要标出来
输出格式：总结、风险、机会、最终结论

这就是大多数实用 Agent 的地基。

先从下面这五类新手 Agent 里选一种开始：

如果你是新手，不要一上来就做多 Agent 群体系统。先从下面这五种之一开始：

研究型 Agent

适合：你想让 Agent 去收集信息，再做总结。

例子：

“研究一下脚踝扭伤最好的康复训练”
“查一下某个加密协议的最新进展”
“比较三台笔记本电脑”

需要：

网页搜索
如果你想让它用你的文档，再加文件搜索
清晰的输出格式

内容型 Agent

适合：你想让 Agent 写作、改写、总结，或者转换内容形式。

例子：

“把我的笔记整理成一封 newsletter”
“按我的品牌语气重写这段文字”
“总结这份会议纪要”

需要：

通常只要一个强一点的 system prompt
可选的文件访问
你偏好风格的示例

流程型 Agent

适合：你想让 Agent 跑一个可重复的业务流程。

例子：

“给客服工单分类”
“把线索分配到正确类别”
“检查表单提交内容并生成回复草稿”

需要：

清晰的分类
规则
有时还需要自定义工具或 API 调用

个人知识 Agent

适合：你想让 Agent 只基于你的文档来回答问题。

例子：

“只用我的 PDF 来回答”
“搜索我的笔记并解释这个主题”
“找出所有提到这个客户的地方”

需要：

文件搜索或 RAG
明确要求它必须基于提供的材料，不要乱发挥

操作型 Agent

适合：你想让 Agent 在某个环境里真正采取动作。

例子：

“读这些文件并修改它们”
“上网搜索，整理结果，再保存成报告”
“运行 Shell 命令，帮我调试代码”

需要：

工具
权限
强边界的安全规则

Anthropic：怎么理解“做出第一个 Agent”这件事

如果你希望模型会用工具、能在环境里操作，那 Anthropic 的 Agent 工具链会特别顺手。Claude Code 在 2025 年 2 月发布，之后 Claude Code SDK 又在 2025 年 9 月改名为 Claude Agent SDK。到 2026 年 3 月，GitHub 上列出的当前版本是 v0.1.50。

什么时候 Anthropic 是个好选择

如果你想做一个这样的 Agent，就优先选 Anthropic：

能读、写、改文件
能用 Shell 命令
能搜索网页
能使用 MCP 工具
很适合编码和技术任务
用起来像一个会一步一步操作的能干助手

你在 Anthropic 里实际上在做什么

站在入门角度，事情其实只有三步：

给 Claude 一个工作
给 Claude 一些工具
让 Claude 循环下去，直到任务完成

就这么简单。

新手例子：一个“研究并总结”的 Agent

假设你想要的是：

“一个能帮我研究某个主题，并写出清晰报告的 Agent。”

那你的搭建方案会像这样：

角色：高级研究助理
目标：找到准确的信息，并把它清楚总结出来
工具：网页搜索，也许再加文件访问
规则：引用来源；不确定就明说；保持简洁
输出：要点总结 + 关键风险 + 结论

它就可以变成你的 system prompt：

SYSTEM_PROMPT ='''You are a careful research assistant.Your job is to help the user research topics accurately.Use tools when needed.Do not guess.If information is uncertain or incomplete, say so clearly.Always produce:1. Summary2. Key findings3. Risks or uncertainty4. Final conclusion'''

现在用户就可以问：

“研究一下最新的 AI Agent SDK”
“比较一下 Anthropic 和 OpenAI，哪个更适合新手做 Agent”
“找 3 个强来源并总结一下”

这已经是一个真正能用的 Agent 了。

新手例子：一个基于文件的写作 Agent

也许你想做的是：

“读取我的笔记，然后按我的语气把它改写成一篇干净的文章。”

那你的设计就会变成：

角色：写作助手
目标：把粗糙笔记打磨成成稿
工具：文件读取，也许再加文件写入
规则：保留原意，提升清晰度，匹配语气
输出：最终文章 + 可选标题建议

这就比一个模糊的“内容型 Agent”容易做得多。

在开始做 Anthropic Agent 之前，你应该先问 AI 什么？

让 LLM 帮你把方案定义清楚：

帮我设计一个 Anthropic Agent。我的目标是：[goal]我希望这个 Agent 能够：[list actions]我希望它使用这些工具：[list tools]我希望最后输出长这样：[format]请给我：1. 一段强一点的 system prompt2. 一份最小工具清单3. 一个第一版 Python 示例4. 10 个测试提示词5. 提高可靠性的建议

通常这一个提示词，就能帮你把 80% 的工作先做出来。

OpenAI：怎么理解“做出第一个 Agent”这件事

OpenAI 在 2025 年 3 月 11 日发布了 Agents SDK，同时还发布了 Responses API 和内建工具，比如网页搜索、文件搜索、电脑操作。到 2026 年 3 月，Python 包 openai-agents 的版本是 0.13.1。

什么时候 OpenAI 是个好选择

如果你想要下面这些东西，就优先选 OpenAI：

一个非常干净的 Agent API
很容易接入自定义函数工具
自带托管工具
专家 Agent 之间的任务交接
护栏和追踪
从原型走向生产更顺的路径

你在 OpenAI 里实际上在做什么

站在入门角度，这套东西其实也只有几步：

创建一个 Agent
给它说明
如果需要，再加工具
用真实用户请求去跑它

就是这样。

新手例子：一个客服分流 Agent

假设你的目标是：

“读取传入的客服请求，然后判断它属于账单、技术，还是销售。”

那它会变成：

角色：客服分流助手
目标：正确给请求分类
工具：先不需要，后面也许可以接 CRM 工具
规则：只能选一个类别；简短解释原因
输出：类别 + 原因

代码大概会像这样：

from agents import Agent, Runneragent = Agent(    name="Support Triage Agent",    instructions=\"\"\"You classify customer requests.Choose exactly one category:- billing- technical- salesReply with:1. Category2. One sentence explaining why\"\"\",)result = Runner.run_sync(agent,"I was charged twice for my subscription this month.")print(result.final_output)

这已经是一个有实际用途的 Agent 了。

新手例子：加一个自定义工具

现在假设你还想让它：

“在需要的时候，帮用户做计算。”

from agents import Agent, Runner, function_tool@function_tooldefcalculate(expression:str)->str:import math    allowed ={k: v for k, v in math.__dict__.items()ifnot k.startswith("__")}returnstr(eval(expression,{"__builtins__":{}}, allowed))agent = Agent(    name="Math Helper",    instructions="Help the user solve maths problems. Use the calculator tool when needed.",    tools=[calculate],)result = Runner.run_sync(agent,"What is compound growth on 10000 at 5 percent for 8 years?")print(result.final_output)

这样一来，Agent 就不只是聊天了，它会通过工具去真正采取动作。

新手例子：使用托管工具

OpenAI Agents SDK 也支持托管工具，比如网页搜索、文件搜索和代码解释器，SDK 文档里有对应的辅助函数。对新手来说，你可以把这些理解成“预制能力”，直接挂到 Agent 上就行，不用你自己从头写。

这意味着你可以做出这样的 Agent：

“去网上研究这个主题，再总结给我”
“搜索我的文件，然后基于文件回答”
“运行代码来分析这些数据”

在开始做 OpenAI Agent 之前，你应该先问 LLM 什么？

帮我设计一个 OpenAI Agent。我的目标：[goal]我想让它处理的任务：[list tasks]我觉得它需要这些工具：[list tools]输出应该长这样：[format]请给我：1. 一段清晰的 Agent 指令2. 最简单的第一版3. 如果需要工具，再给一个带工具的版本4. 10 个测试提示词5. 常见失败模式，以及怎么修

怎么把你的 Agent 真正定制成你想要的样子

这是新手最容易翻车的地方。很多人做出来的不是“具体 Agent”，而是一个泛泛的通用助手。

用这个检查清单。

把工作范围缩窄

差的写法：

“帮我处理一些业务相关的事”

好的写法：

“把销售电话总结成行动点”
“把线索分成热、温、冷”
“研究加密项目，输出风险、催化因素和结论”

定义输出格式

差的写法：

“给我一个答案”

好的写法：

“返回：总结、证据、风险、下一步”
“返回 JSON，字段包括 category、confidence、explanation”
“按 5 个标题输出项目符号列表”

给例子

如果你在意语气、结构或者分类质量，例子会非常有帮助。

你可以直接告诉模型：

“这里有 3 个好的输出示例”
“这里有 5 个请求分类示例”
“就按这个风格写”

只在真的需要时再加工具

如果任务只是改写笔记，就别加网页搜索。
如果答案只应该来自提示词本身，就别加文件访问。
每多一个工具，复杂度就会上升一点。

用真实提示词测试，而不是理想化提示词

要用真实用户会打出来的那种乱糟糟输入去测。

不要只测这种：

“请分类这个技术问题”

也要测这种：

“我的账号出故障了，而且一直在被扣费，我该怎么办？”

这才是你真正看清自己的 Agent 到底在干嘛的时候。

下面是你的搭建路径：

第 1 步：用一句话写清这个 Agent 是干什么的
例子：“我想做一个能把我的零散笔记整理成每周 newsletter 的 Agent。”

第 2 步：让 Claude 或 ChatGPT 帮你把它整理成：

一份 Agent 规格说明
一段 system prompt
一份工具清单
10 个测试提示词

第 3 步：做出最小可用版本

不要一开始就上多 Agent。
不要一开始就做复杂记忆。
除非真的需要，否则别急着上 RAG。

第 4 步：拿 10 个真实例子测试它

第 5 步：每次只改一个东西

提示词
输出结构
示例
工具
记忆
检索

这个顺序很重要。别把自己困在一大堆复杂东西里。

避免这个常见错误：

最大的错误，就是一开始就想做一个“全能超级 Agent”。

不要从下面这些开始：

网页搜索
文件搜索
数据库访问
记忆
多 Agent 任务交接
复杂护栏
自定义仪表盘
20 个工具

应该从这些开始：

一个工作
一个 Agent
一段清晰提示词
最多一两个工具
5 到 10 个真实测试用例

这才是最容易做成的路径，不要一开始就把自己复杂化。

这一部分的实际收获

现在你已经看完第 3 部分了。看到这里，你应该已经能说出下面这些话：

我知道我的 Agent 是干什么的
我知道它需要哪些工具
我知道它必须遵守什么规则
我知道输出应该长什么样
我知道该从 Anthropic 还是 OpenAI 开始
我知道怎么用 AI 自己来帮我设计第一版

4：怎么使用工具

这一点大多数人都搞错了。

他们会觉得：

“工具越多，Agent 就越聪明。”

错。

更好的工具，才会带来更聪明的 Agent。

更少的工具，通常也意味着更可靠的 Agent。

理解工具最简单的方法

工具本质上就是：

“AI 自己做不到，所以要借外部能力来做的东西。”

比如：

计算数字
搜网页
读你的文件
发邮件
查数据库

第 1 步：先问自己，“这件事真的需要工具吗？”

在你加任何东西之前，先问：

模型只靠推理能不能回答？
还是它真的需要现实世界的数据或动作？

例子：

不需要工具：

“改写这封邮件”
“总结这段文字”
“解释这个概念”

需要工具：

“现在天气怎么样？”
“搜索最新新闻”
“算一下复利”
“从我的表格里把数据拉出来”

👉 规则：

只要它需要外部数据或实际动作，就用工具不需要，就别加

第 2 步：用 AI 帮你把工具想清楚

我正在做一个 AI Agent。我的目标：[describe goal]我觉得这个 Agent 需要完成这些事：[list actions]哪些事情需要工具？我应该做哪些工具？请尽量保持简单、够用就好。返回：1. 工具清单2. 每个工具的说明3. 每个工具需要哪些输入

这会帮你省掉很多时间。

第 3 步：保持简单，真的

坏工具：

manage_files(action,file, destination, overwrite,format, permissions)

好工具：

read_file(path)write_file(path, content)delete_file(path)

👉 规则：

一个工具，只做一件清楚的事

第 4 步：明确告诉 Agent，什么时候该用这个工具

这正是大多数人失败的地方。

差的写法：

“计算工具”

好的写法：

“只要涉及数学运算，就使用这个工具。不要靠猜。”

第 5 步：让 Agent 出错，然后把它修好

用真实测试去跑，比如：

“what’s 2^16”
“calculate 7% growth over 10 years”

如果它：

不用工具，那就改工具描述
工具用错了，那就改输入设计
产生幻觉，那就把规则写得更严格

你看到这里，应该已经明白：

你不需要很多工具
你可以用 AI 帮你设计工具
工具越简单，Agent 越好
工具说明往往比工具本身更重要

好，继续。

5：给你的 Agent 加记忆

很多人把这件事想得太复杂了。

你其实只需要明白这一点：

记忆只有两种

短期记忆（对话记忆）

也就是：

“到目前为止，对话里说过什么”

这个你默认就已经有了。

长期记忆（外部知识）

也就是：

“Agent 以后还能查到的东西”

比如：

你的笔记
PDF
文档
数据库

你到底什么时候真的需要记忆？

问自己：

Agent 需要跨消息记住事情吗？如果要，那就是短期记忆
它需要用外部文档吗？如果要，那就是长期记忆
否则，大概率你根本不需要记忆

第 1 步：先让 AI 帮你判断到底需不需要

我正在做一个 AI Agent。我的目标：[goal]这个 Agent 需要：1. 对话记忆吗？2. 外部知识（RAG）吗？如果需要，请解释为什么。如果不需要，也请解释为什么。尽量说简单一点。

第 2 步：你其实只有三种选择

选项 A：不要记忆（从这里开始）

对大多数新手来说，这是最好的起点
70% 的使用场景都能靠它解决

选项 B：对话记忆

大多数 SDK 本来就已经处理好了
只要别重置消息就行

选项 C：基于文件的记忆（简单版 RAG）

上传文档
使用文件搜索工具

第 3 步：别一上来就用过头

很常见的错误是：

先上向量数据库
再上 embeddings
再上复杂流水线

结果你甚至都还没搞清楚自己到底需不需要这些。

👉 规则：

如果你的 Agent 不加记忆也能正常工作，那就别加

好，到第 5 部分结束，你现在应该知道：

大多数 Agent 根本不需要复杂记忆
先从简单开始
只有在真的出问题时，再加记忆

6：怎么让你的 Agent 真正在现实里跑起来

这一部分决定了你的 Agent 最后到底会变成垃圾，还是会真的很好用。很多 Agent 之所以一塌糊涂，通常就是因为：

提示词写得烂
没有测试
期待不现实

所以：

第 1 步：用 AI 帮你生成测试用例

我做了一个 AI Agent，它的目标是：[goal]请生成 15 个真实一点的用户输入：- 要乱一点- 要模糊一点- 要像现实里人会打出来的话另外还要包括：- 边界情况- 容易混淆的输入- 坏输入

第 2 步：像真实用户一样测试

不要测这种：

“请对该计费请求进行分类。”

要测这种：

“搞什么鬼，我怎么又被扣钱了？”

第 3 步：每次只修一个点

当它失败时，问自己：

是提示词不清楚吗？
是输出格式太模糊吗？
是缺了工具吗？
是缺了规则吗？

第 4 步：用 AI 帮你调试 Agent

这是我的 Agent：这是我的输入：[input]这是它的输出：[output]哪里出问题了？我要怎么修？请具体一点。

第 5 步：别太早发疯式加复杂度

在下面这些东西之前，先忍住：

多个 Agent
复杂工作流
自动化流水线

前提是：

你的简单版本已经能稳定工作

看到这里，你应该已经明白：

测试就是一切
AI 可以帮你调试它自己
在加复杂度之前，先把清晰度修好

下一部分。

7：多个 Agent

这一块特别容易把自己带偏。

很多人会觉得：

“Agent 越多，就越强。”

错。

先从一个 Agent开始。

永远先这样做。

只有在下面这些情况下，你才需要多个 Agent：

任务可以被明确拆开
一个 Agent 已经明显扛不住了
不同角色真的差异很大

真正需要多个 Agent 的情况，其实只有 3 种

技能不同

比如：

研究 Agent
写作 Agent

流水线很清楚

比如：

输入 → 分析 → 写作 → 输出

权限不同

比如：

一个 Agent 能读数据
一个 Agent 能执行动作

第 1 步：先用 AI 帮你判断，到底需不需要多个 Agent

我做了一个 AI Agent。它的工作是：[describe]这应该是：1. 单个 Agent2. 多个 Agent如果是多个：- 分别是什么角色？- 为什么？尽量保持简单。

最稳妥的模式

监督者模式：

用户 → 主 Agent →（有需要时再调用其他 Agent）

不要从这些开始：

swarm（多个代理同时跑、互相传话、互相分工，系统更像“一群代理自己协作）
完全自治的多 Agent 系统

这些东西非常容易坏。

第 2 步：角色保持简单

差的写法：

“带有动态认知分层的 AI 战略 Agent”

好的写法：

“研究 Agent”
“写作 Agent”

第 3 步：慢慢加

先从：

1 个 Agent

然后最多到：

2 个 Agent

只有在你真的看见明确收益时，再继续往上加。

这一部分的结论是什么？

大多数人根本不需要多个 Agent
一个 Agent 加上好的工具，通常就够了
只有被现实逼到的时候，再加复杂度

8：给这篇文章收个尾

这篇指南里最重要的洞见是：Agent 在概念上其实很简单，但在落地上要求很高。那个核心循环，也就是 LLM 思考、调用工具、重复执行，50 行 Python 就能写出来。真正难的地方在于工具设计、错误处理、评估，以及你要知道什么时候更简单的模式，比如提示链、路由，会比自治 Agent 更好用。

给刚开始的人三个可以立刻执行的建议：

先把最原始的 Agent 做出来。只有理解底层循环，任何框架对你来说才不会显得像魔法。你会更快定位问题，也更知道该怎么选工具。
从最简单、但能跑通的模式开始。提示链能处理大多数多步骤任务。路由能处理大多数“先分类、再动作”的流程。只有在你真的需要让 LLM 自己动态决定执行路径时，再升级到自治 Agent。
早点把精力花在工具设计和评估上。一个名字清楚、说明准确、错误信息结构化的工具，对 Agent 表现的提升，往往比你换模型或换框架更大。而 20 个高质量测试用例，能帮你抓到的 bug，通常比你手工瞎试一通更多。

这个领域变化非常快。MCP 在不到一年里就成了通用标准，两大主流提供方都推出了 Agent SDK，新框架更是几乎每个月都冒出来。但这篇指南里的基本面是稳定的：Agent 循环、五种工作流模式、好工具设计的原则，以及“先从简单开始”的纪律。把这些吃透，你就能应对后面冒出来的一切。

你现在已经可以开始做 Agent 了。