软考高级系统架构师之大模型Agent篇

原创于 2026-06-16 17:30:00 发布 · 275 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #系统架构

大模型 Agent 学习平台（点击这里进入）

🤖 大模型 Agent 核心指南

Agent (智能体) — 以大语言模型为大脑，能够自主感知环境 → 规划行动 → 调用工具 → 记忆反思，完成复杂任务的程序实体。它让 LLM 从“聊天机器”进化为“行动派”。

🧠 自主规划与决策
🛠️ 调用外部工具（API、数据库、浏览器等）
🔁 具备短期 + 长期记忆
🎯 多步任务拆解与执行
🔥 2025 年 AI 最热技术栈

💡 一句话：Agent = LLM + 规划 + 记忆 + 工具使用，让 AI 自己“动手干活”。

📚 一、Agent 核心组件 (四大金刚)

组件	作用	典型实现/技术
🧭 规划	将复杂目标拆解为子任务，动态决策下一步	ReAct、CoT、Tree-of-Thoughts
🧠 记忆	存储历史对话、执行中间结果、长期知识	向量数据库 (Chroma/Milvus)、摘要
🔧 工具	扩展能力：搜索、计算、代码执行、API 调用	Function Calling、OpenAPI 规范
✅ 行动	执行具体动作并输出结果	写文件、发请求、操作 UI

✨ 特殊扩展

多智能体协作
AutoGen / MetaGPT：多个 Agent 各司其职（产品→开发→测试）
自我反思
执行后评估结果，错误时自动修正（ReAct + 自省）
环境交互
WebGPT / 浏览器操作 / 桌面自动化

⚠️ 二、Agent 四大陷阱 · 幻觉｜循环｜失效｜冲突

🌫️ 规划幻觉

问题： LLM 生成看似合理但无法执行的计划，或者编造不存在的工具/API。
✅ 解决方案： ① 约束解码 (JSON Schema 强制输出格式)；② 工具检索增强 (给 Agent 注入实时工具列表)；③ 执行前验证 (用少量规则过滤非法行动)。

🔄 无限循环

问题： Agent 反复执行同一无效步骤，陷入死循环，浪费 token 和资源。
✅ 解决方案： ① 最大步数限制 (超过阈值强制终止)；② 循环检测器 (哈希最近 n 步动作，重复则触发回溯或随机探索)；③ 批评家模型 (另设一个轻量 Agent 监督，发现循环则中断)。

🧰 工具调用失效

问题： 生成的参数格式错误、漏传必填字段、或调用顺序错误。
✅ 解决方案： ① 工具描述强化 (提供示例 + 字段类型 + 错误重试提示)；② 输出解析器 (正则 + Pydantic 校验，失败时让 Agent 重试)；③ few-shot 示例 嵌入系统提示。

👥 多智能体冲突

问题： 多个 Agent 目标不一致、相互覆盖结果、通信开销爆炸。
✅ 解决方案： ① 全局编排器 (一个主 Agent 分配任务并仲裁)；② 共享黑板模式 (所有 Agent 读写统一消息池，避免冲突)；③ 角色权限设计 (只读/只写/审核)。

📖 记忆口诀：幻觉乱计划请约束，循环无终止上限阻；工具调不对加示例，多体互咬编排补。

🔄 三、Agent 记忆系统（短期→长期）

保证 Agent 在多轮对话/长任务中不丢失关键信息：

记忆类型	实现方式	特点
短期记忆	会话上下文 (全量历史)	有限窗口，token 易超限
长期记忆	向量检索 + 语义压缩	海量存储，可检索历史事实
工作记忆	当前任务中间步骤缓存 (Redis)	存放部分执行结果，快速读写
外部记忆库	本地文件 / 数据库 / 知识图谱	永久存储，可被多个 Agent 共享

选型建议： 简单对话 → 短期记忆；复杂项目 → 长期向量存储；高频协作 → Redis 工作记忆。

🛠️ 四、工具调用范式 (Function Calling)

主流框架：OpenAI Function Calling、Anthropic Tool Use、LangChain Tools。

步骤	动作	说明
1.注册	定义工具 JSON Schema (名称+参数+示例)	类似 API 文档，模型理解调用方式
2.决策	LLM 判断是否需要调用，选择工具+填参数	根据用户指令 + 历史上下文
3.执行	本地/云端实际运行工具函数	可带错误重试、超时控制、安全沙箱
4.观察	将工具返回结果回填 LLM	模型基于新结果继续推理或生成最终答案

🚀 生产最佳实践：

工具描述中显式标注是否破坏性操作 (如删除数据需要用户二次确认)
对敏感工具（发邮件、转账）增加人工审批层
使用 parallel tool calls 减少往返延迟

🧠 五、规划算法进化 (从 CoT 到 Plan-and-Solve)

策略	原理	适用场景
CoT (Chain-of-Thought)	让 LLM 先输出思考步骤再给答案	推理题、数学
ReAct	交替“思考→行动→观察”，生成可追溯轨迹	需要外部工具的任务
Plan-and-Solve	先生成完整执行计划，再逐步执行并可能调整	多步自动化、代码生成
Tree-of-Thoughts	多路径探索 + 评分回溯	开放探索、创意写作
Reflexion	执行后产生自我反思文本，存入记忆，下次优化	长期学习、失败纠正

💡 推荐：复杂任务先用 Plan-and-Solve 生成骨架，再 ReAct 细化每个步骤。

🌐 六、多智能体协作模式

🗣️ 对话式 (AutoGen)

多个 Agent 互相聊天，自然分工。适合：头脑风暴、代码审查。

📡 层级式 (MetaGPT)

有一个“老板” Agent 拆解任务，分配给“员工” Agent，结果汇总。适合：软件开发流程。

🔁 循环式 (CAMEL)

两个 Agent (扮演买方/卖方) 交替发言，通过角色扮演完成任务。适合：谈判模拟、需求分析。

⚠️ 常见坑：

对话爆炸 → 设置最大轮次
相互复读 → 引入唯一输出主持人
任务漂移 → 定期提醒原始目标

⚡ 七、为什么 Agent 容易翻车？排查思路

✅ 规划失败 → 增加 few-shot 示例，或切换到更强模型
✅ 工具调用格式错误 → 强制 JSON Mode，后处理正则修复
✅ 记忆混淆 → 检查向量检索相似度阈值，清理过期记忆
✅ 无限循环 → 加入步数计数器 + 随机动作探索
✅ 性能慢 → 缓存工具返回结果，流式输出 Agent 思考过程

🔧 常用调试手段

打印 ReAct 轨迹日志
可视化 Agent 决策树
单元测试每个工具函数
设置人工回退机制 (Human-in-the-loop)

📌 八、Agent vs 传统 RAG 对比

对比维度	RAG	Agent
任务类型	信息检索 + 生成	多步规划 + 行动 + 迭代
是否调用工具	通常只用检索器	可调用任意 API、代码、数据库
记忆持久性	无长期记忆	支持工作记忆 + 长期向量库
自主性	被动回答问题	主动规划执行，可处理异常
典型场景	知识问答、文档摘要	自动化运维、旅行规划、代码编写

💬 面试高频附加题：
• Agent 如何处理未知工具？ → 工具注册表 + 动态提示，或者请求用户授权安装。
• 怎么避免 Agent 执行危险操作？ → 沙箱环境 + 白名单 + 人工确认 + 回滚快照。
• 多 Agent 通信用同步还是异步？ → 短任务同步，长耗时任务用消息队列。
• ReAct 和 CoT 本质区别？ → CoT 只思考，ReAct 思考+行动+观察闭环。