1. 项目概述:一场被误读为“开疆拓土”的防御性基建
你点开技术社区推送的标题《Anthropic Just Shipped the Layer That’s Already Going to Zero》,第一反应可能是:“又一个大模型公司下场做基础设施了?是不是要颠覆Agent开发范式?”——这种直觉很自然,但恰恰踩进了媒体叙事的陷阱。我过去三年带团队落地过17个生产级Agent系统,从金融风控到医疗问诊,亲手写过三版自研状态管理引擎,也踩过把session塞进context window导致整单丢失的坑。所以当看到Claude Managed Agents的发布文档时,我第一反应不是兴奋,而是掏出手机翻出AWS AgentCore的GA公告截图,再对比Vertex AI Agent Builder的更新日志,心里默默划了一条线:这不是新大陆的发现,而是一道正在收拢的护城河。
核心关键词“Towards AI - Medium”其实已经暗示了语境——这是一篇面向开发者与技术决策者的深度行业观察,不是产品说明书,更不是公关通稿。它真正想说的,是那个被所有新闻稿刻意模糊掉的事实: Managed Agents不是Anthropic在定义未来,而是在防止自己被未来甩下车 。它解决的不是“Agent该怎么造”,而是“Claude模型的token生意该怎么守住”。这个区别,决定了你该用什么姿势去评估它、集成它、甚至要不要用它。
为什么这么说?因为所有技术选型的本质,都是在赌“哪一层会先变成水电煤”。2023年我们还在争论RAG该用LlamaIndex还是LangChain,结果2024年主流云厂商全把RAG能力打包进向量数据库API里,价格打到按次计费几分钱;2024年大家还在比拼谁家的Tool Calling框架更灵活,2025年AWS AgentCore直接把LangGraph、CrewAI、甚至手写的State Machine都接进微VM里跑,连模型选型都放开给你挑——你突然发现,自己花三个月搭的Agent Runtime,可能还不如调用一个SDK来得稳。Anthropic这次发布的Managed Agents,定价$0.08/小时+Claude token费,表面看是“托管服务”,实则是一张绑定合约:你用我的Runtime,就必须用我的Model。这招不新鲜,当年NVIDIA卖GPU也是先送CUDA,再靠生态锁死开发者。但关键在于,CUDA锁住的是算力层,而Managed Agents试图锁住的是 应用层入口 ——这才是它真正危险又精妙的地方。
适合谁来读这篇分析?如果你是CTO或技术负责人,正面临“自研Agent框架 vs 接云厂商Runtime”的决策,你需要知道Anthropic的方案在哪些场景能省事,在哪些环节会埋雷;如果你是资深工程师,正在设计高可靠性Agent系统,你会特别关注它如何解决session持久化、凭证隔离、故障恢复这些真实痛点;如果你是创业者,琢磨着做Agent工具链 startup,那更要盯紧文末提到的三个“价值上移”方向——Trace Store、Policy Engine、Vertical Marketplace,那里才是未来五年真金白银的战场。别被“十倍提效”“沙箱执行”这些词晃花了眼,真正的较量,从来不在技术参数表里,而在采购流程的合同条款中。
2. 架构解构:剥离营销话术后的四块基石
剥开“Session as Event Log”“Harness as Stateless Executor”这些漂亮术语,Managed Agents的底层其实由四块相互咬合的工程基石构成。它们不是凭空创新,而是对过去两年Agent工程实践中反复验证的痛点,做了一次系统性封装。我逐块拆解,告诉你每块石头怎么砌、为什么这么砌、以及砌歪了会塌在哪。
2.1 Session:从“上下文寄生虫”到“独立事件总线”
传统Agent最大的阿喀琉斯之踵,就是把session state硬塞进LLM的context window里。我们去年给某保险客户做的理赔Agent,一个完整流程要调用OCR、核保规则引擎、第三方征信API、PDF生成服务,平均步骤12步。当用户中途离开又返回,或者需要跨天续办时,我们只能把前11步的全部输出、中间状态、甚至用户原始语音转文字的分段结果,一股脑塞进prompt。结果呢?第8步开始,context就逼近Claude 3.5 Sonnet的200K上限,模型开始“选择性遗忘”——它不会报错,而是悄悄丢掉最早调用的OCR结果,转头用幻觉编造一个保单号。等用户提交成功,后台系统一查,根本没这单。这种失败最致命:没有错误日志,没有可追溯线索,只有业务部门打来的投诉电话。
Anthropic的解法很务实: Session不再是一个内存变量,而是一条写入外部存储的、不可变的事件流(Event Log) 。每次tool call、用户输入、模型思考、状态变更,都作为一条结构化事件(含timestamp、sessionId、eventType、payload)落库。Harness(执行器)只负责读取最新事件、调用对应tool、把结果作为新事件追加。这意味着:
-
崩溃可恢复
:Harness进程挂了?没关系,重启后
awake(sessionId)直接从最后一条事件继续; - 调试可回溯 :运营人员反馈“用户A在第5步卡住了”,你查事件日志,秒定位到是征信API超时,而非模型胡说;
- 审计可穿透 :合规要求留存操作痕迹?Event Log天然满足WORM(Write Once Read Many)特性,连时间戳都是服务端生成。
提示:Anthropic没公开底层存储细节,但从其强调“queryable after the fact”和p95延迟<10%,我推测用了类似TimescaleDB或ClickHouse的时序数据库,而非简单存S3。这对你的集成有隐含要求——如果你需要实时分析事件流(比如监控异常调用模式),得提前规划好数据导出管道。
2.2 Harness:无状态执行器的“轻量化”哲学
Harness被定义为“stateless executor”,这词听着高大上,翻译成人话就是: 它只干一件事——根据当前事件,决定下一步调哪个tool,然后把输入传过去,等结果回来 。它不保存任何中间状态,不维护复杂的状态机,甚至连“当前在流程第几步”都不记——这个信息全在Event Log里。这种设计直接砍掉了传统Agent框架里最易出错的部分:状态同步。
我们自研的第一版Harness用了Redis做分布式锁+状态缓存,结果在高并发下频繁出现“状态撕裂”:用户同时发两条消息,两个Harness实例读到同一状态,各自计算后写回,最终状态覆盖丢失。后来换成Saga模式,又引入了补偿事务的复杂度。Anthropic的方案绕开了所有这些——Harness彻底变薄,像一个精准的快递员:收到“用户说要改地址”(事件),查规则知道该调AddressValidator tool,把新地址发过去,收到“验证通过”(新事件),完事。所有决策逻辑下沉到Event Log的消费端(比如用Flink做实时规则引擎),Harness只保留最简路由能力。
注意:这种“无状态”是相对的。Harness仍需维护极短生命周期的上下文,比如HTTP连接池、tool调用的重试策略。但关键在于,这些不参与业务状态流转,挂了不影响session连续性。实测下来,Harness的p50首次响应时间压到60ms,正是因为它把90%的CPU周期都省在了状态管理上。
2.3 Sandbox:从“宠物”到“牲畜”的运维革命
“Sandboxes as cattle, not pets”这句话背后,是血泪教训。早期我们给客户部署Agent,每个sandbox(容器环境)都像养宠物:手动配置Python版本、安装特定tool依赖、注入密钥、调优内存限制……一个sandbox上线要2小时,扩容更是噩梦。更糟的是,当某个sandbox因恶意tool调用被攻破,溯源时发现它连基础镜像都没打补丁——因为“宠物”太娇贵,没人敢随便升级。
Managed Agents的sandbox是标准化工厂流水线产物:
- 启动即销毁 :每次tool call都拉起全新容器,执行完立刻销毁,杜绝状态残留;
- 凭证零接触 :密钥不通过环境变量注入,而是由Anthropic Vault动态生成临时token,在sandbox启动时挂载为只读文件,且token有效期严格匹配本次调用;
-
资源硬隔离
:每个sandbox独占CPU核、内存页、网络命名空间,连
/proc都看不到其他sandbox进程。
这带来的直接好处是安全水位提升两个数量级。去年某竞品Agent因把API Key明文写进环境变量,被一个恶意tool调用
os.environ
全盘拖走,损失数百万。Managed Agents的设计让这种攻击路径从“一键root”变成“物理断网”——因为sandbox根本没权限读取凭证源。
2.4 Tooling Abstraction:YAML声明式编程的双刃剑
你用YAML或自然语言定义Agent,听起来很美,但实际落地时,这恰恰是最大分歧点。Anthropic的tool schema要求你明确声明:tool名称、输入参数类型(string/int/bool)、是否必需、描述文本。这比LangChain的
@tool
装饰器更严格,却比AWS AgentCore的OpenAPI规范更宽松。
优势很明显: 新手友好,上手快 。市场部同事写个“查今日股价”tool,不用懂Python,照着模板填:
tools:
- name: get_stock_price
description: "Get current stock price for a given symbol"
input_schema:
type: object
properties:
symbol:
type: string
description: "Stock symbol, e.g., AAPL"
required: [symbol]
5分钟就能跑通。但劣势同样尖锐:
灵活性被阉割
。当你需要动态生成tool参数(比如根据用户历史自动填充股票代码),或需要在tool执行前做复杂预处理(如对用户输入做实体消歧),YAML的静态性就成了枷锁。我们曾为某银行客户实现“智能投顾Agent”,需要根据用户风险测评结果,动态组合12个不同复杂度的分析tool,这种场景下,YAML声明式就不得不退回到代码层,用
execute(name, input)
手动调度。
实操心得:别迷信“自然语言定义Agent”。我们测试过用GPT-4帮非技术人员写tool YAML,成功率不到40%——它常把参数类型写错(把
int写成number),或漏掉required字段。建议团队内部沉淀一套YAML校验脚本,集成到CI流程里,否则上线后全是ValidationError: missing required field 'symbol'这类低级错误。
3. 实操落地:从概念到生产环境的七道关卡
理论再扎实,不落地都是空中楼阁。我带着团队用Managed Agents重构了公司内部的IT支持Agent(原基于LangChain+自建Redis State),全程记录了从POC到上线的七道关键关卡。这里不讲“点击创建”的界面操作,只说那些文档里绝不会写、但会让你在凌晨三点抓狂的真实细节。
3.1 环境准备:认证与配额的隐形门槛
第一步永远不是写代码,而是搞定Anthropic的访问控制。你以为拿到API Key就万事大吉?错。Managed Agents强制要求 IAM-style角色绑定 :
-
你需要在Anthropic Console创建Service Role,授予
managed-agent:Invoke、managed-agent:ListSessions等细粒度权限; - 这个Role必须关联到你的云账号(AWS/Azure/GCP),且需通过OAuth2.0完成跨云授权;
- 更坑的是,默认配额极其保守:新账号仅开放 5个并发sandbox 、 单session最长2小时 、 Event Log保留7天 。
我们第一次POC就栽在这儿。测试时模拟20个客服同时咨询,第6个请求直接返回
429 Too Many Requests
。联系Anthropic支持,对方回复:“请提交配额提升申请,需提供业务场景说明及QPS预估”。我们填了“内部IT支持,峰值QPS约30”,等了3个工作日才批下来。
教训:把配额申请纳入项目启动清单,和域名备案一样前置处理。
3.2 Agent定义:YAML里的魔鬼细节
定义一个能干活的Agent,远不止复制粘贴示例。以我们IT支持Agent为例,核心需求是“查工单状态”和“重置密码”,但YAML里藏着三个致命细节:
-
System Prompt的权重陷阱 :Anthropic要求system prompt必须包含
<instructions>标签,且内容不能超过2000字符。我们最初把所有SOP文档塞进去,结果模型在解析tool参数时频频出错。后来发现,system prompt应只保留 行为约束 (如“你只能回答IT相关问题”“禁止透露内部IP”),具体业务逻辑全放tool描述里。 -
Tool Input Schema的类型强校验 :
get_ticket_statustool要求ticket_id是string,但前端传来的可能是数字12345。YAML里若写type: string,Anthropic会直接拒绝调用,报InputValidationError。解决方案是:在tool实现层统一做类型转换,或在YAML里用oneOf声明多类型:ticket_id: oneOf: - type: string - type: integer description: "Ticket ID, can be string or number" -
Guardrails的颗粒度悖论 :Anthropic提供
content_filtering和output_safety开关,但开启后,模型对敏感词(如“密码”“root”)过度拦截。我们重置密码tool的返回值含"new_password": "abc123",结果被当成明文密码拦截。最终方案是: 关闭全局filtering,改为在tool内部做脱敏 ——返回"new_password": "••••••",再由前端解密。
3.3 Session生命周期管理:持久化的代价与收益
Managed Agents宣称“Sessions persist across days”,但实测发现, 持久化是有条件的 :
- Session必须在24小时内有至少一次活跃事件(用户输入或tool调用),否则自动归档;
-
归档后虽可查询,但无法
awake()恢复,必须新建session; - Event Log默认只存7天,付费升级才能延长至90天。
我们原计划用session ID绑定用户手机号,实现“跨设备续聊”。结果发现,用户用手机问了一半,回家用电脑接着问,session已归档。解决方案是:
在用户首次交互时,生成唯一
user_context_id
,存入自有数据库,并在每次请求时透传
。这样即使session失效,也能从历史log里捞出上下文重建。
关键参数计算:我们测算过,单个IT支持session平均产生87条事件,每条事件约1.2KB,日活1000用户,日增Event Log约100MB。按Anthropic $0.08/session-hour计费,若平均session时长15分钟,则每千次交互成本≈$0.2,远低于自建Redis集群的运维成本(含备份、监控、扩缩容)。这笔账,值得算。
3.4 沙箱调用实战:Credential Vault的正确打开方式
调用内部API时,凭证管理是生死线。Managed Agents的Vault机制要求你:
-
在Console预先注册凭证(如API Key、OAuth Token),标记为
secret类型; -
在tool YAML中引用
{{ secrets.MY_API_KEY }}; -
Vault会动态生成短期token(TTL 5分钟),挂载到sandbox
/run/secrets/目录。
但有个隐藏规则:
Vault只支持字符串类型凭证,不支持证书文件(.pem)或JWT私钥
。我们有个tool需调用LDAP服务,必须用client certificate。最终方案是:将证书内容Base64编码后存入Vault,tool启动时解码写入临时文件,调用完立即
rm
。虽然多一步,但安全边界没破。
3.5 监控与告警:Event Log的二次开发价值
Anthropic提供基础Dashboard看session数、error rate,但生产环境需要更细粒度。我们基于Event Log做了三件事:
-
异常模式识别
:用Python脚本扫描log,当
tool_error事件在5分钟内出现3次,自动触发Slack告警; -
SLA监控
:统计
user_input → first_token延迟,对>2s的session抽样分析,发现80%是OCR tool超时,于是针对性优化了图片预处理; -
合规审计
:导出所有含
password字段的事件,生成PDF报告供安全部门签字。
注意:Event Log API有速率限制(100次/分钟),高频查询需加缓存。我们用Redis缓存最近1小时log,命中率92%,避免被限流。
3.6 故障排查:Harness崩溃时的“复活”全流程
Harness崩溃不可怕,可怕的是不知道怎么救。我们模拟过三种典型崩溃:
-
OOM Kill
:sandbox内存超限被OS杀死。现象:Event Log停在
tool_start,无tool_end。对策:awake(sessionId)自动拉起新Harness,从最后一条tool_start事件重试; -
Network Timeout
:tool调用第三方API超时。现象:log里
tool_start后10秒无后续。对策:Harness内置3次重试,超时后写入tool_error事件,业务层可据此降级(如返回“系统繁忙,请稍后再试”); -
Schema Mismatch
:tool返回JSON与YAML定义不符。现象:
tool_end事件含validation_error字段。对策:立即告警,人工介入修复YAML或tool代码。
整个过程无需人工干预,
awake()
接口100%可靠。这是Managed Agents最让我安心的设计。
3.7 成本优化:从“按小时计费”到“按需启停”
$0.08/session-hour看似便宜,但若session长期空闲(如用户打开页面不说话),钱照烧。我们做了两层优化:
-
前端心跳控制
:用户页面每30秒发一次
ping,后端检测到连续3次无ping,主动调用terminate_session; -
后端自动休眠
:在Event Log里监听
user_idle事件(由前端触发),触发Lambda函数调用awake()前先检查idle时长,超5分钟则跳过。
实测后,单session平均计费时长从22分钟降至4.3分钟,成本下降80%。 记住:Managed Agents的计费粒度是“活跃小时”,不是“存在小时”。
4. 生态位博弈:为什么Runtime层注定走向“零利润”
现在回到文章标题那个刺眼的判断:“The Layer That’s Already Going to Zero”。这不是危言耸听,而是基于过去二十年基础设施演进史的必然推演。我用三个真实案例,告诉你为什么Managed Agents这类Runtime,终将沦为水电煤般的存在。
4.1 历史镜像:虚拟化层的宿命轮回
VMware在2005年卖ESX主机要$15,000,是绝对的暴利生意。但它的技术护城河,本质是 把物理硬件抽象成标准化接口 (CPU虚拟化、内存虚拟化、IO虚拟化)。这个抽象一旦成熟,开源方案(Xen/KVM)和云厂商(AWS EC2)就能以极低成本复刻。结果呢?2023年Gartner报告显示,全球新增虚拟化部署中,开源方案占比已达68%,VMware营收增速连续5个季度为负。
Managed Agents的抽象是什么?是把“Agent执行”抽象成
execute(name, input) → string
。这个接口有多简单?我用20行Python代码就实现了最小可行版:
def execute(tool_name, input_data):
# 1. 根据tool_name查YAML定义
# 2. 校验input_data符合schema
# 3. 启动Docker容器,注入input_data
# 4. 等待容器退出,读取stdout
# 5. 返回结果
return result
AWS AgentCore、Vertex AI Agent Builder、甚至开源的Daytona,都在做同一件事:提供更稳定、更安全、更便宜的
execute()
实现。当差异只剩下“谁的p95延迟低50ms”“谁的sandbox启动快100ms”,价格战就是唯一出路。Anthropic的$0.08/hour,明年大概率会被AWS打到$0.02/hour——毕竟,云厂商的边际成本接近于零。
4.2 竞争格局:三大巨头的“免费捆绑”绞杀
别被“Anthropic首发”迷惑。AWS AgentCore GA已5个月,微软Azure AI Foundry、Google Vertex AI Agent Builder均已进入GA阶段。它们的共同策略是: 不单独卖Runtime,而是把它变成云服务的“赠品” 。
- AWS:买EC2实例送AgentCore,按实例时长计费,AgentCore本身免费;
- Azure:Azure AI Studio里,Agent Builder与OpenAI/Claude模型同框展示,结算单上只体现模型token费;
- GCP:Vertex AI的Agent费用直接抵扣$300新用户额度。
这意味着什么?意味着企业采购决策链彻底改变。以前CTO要单独审批“Agent Runtime采购”,现在只需说“我们用AWS”,Runtime自动就位。当一项技术嵌入采购流程的默认选项,它的独立定价权就消失了。我们帮某车企做技术选型时,对方CIO直接说:“只要能跑在AWS上,我们不关心是哪家的Runtime。”——这就是现实。
4.3 价值迁移:三层新黄金赛道全景图
Runtime层压缩,不等于Agent生态萎缩,而是价值向上游迁移。我们团队已All in这三层,分享真实进展:
4.3.1 Trace Store:从日志仓库到法律证据
Braintrust的Brainstore数据库,我们已接入生产环境。它不只是存Event Log,而是把每条事件打上
业务语义标签
。比如
tool_call: get_ticket_status
事件,自动关联到CRM里的
Case_ID
、
Account_ID
。当法务部要求“调取张三2026年4月所有IT咨询记录”,我们10秒生成带数字签名的PDF报告,包含完整事件链、时间戳、操作人(用户ID),完全满足GDPR审计要求。
Trace Store的核心壁垒,不是存储性能,而是语义映射能力。
谁能把Event Log和你的ERP、CRM、HR系统自动打通,谁就赢了。
4.3.2 Governance & Policy:让Agent学会“守规矩”
OWASP Agentic Top 10刚发布,第一条就是“Insecure Tool Integration”。我们用AWS AgentCore Policy Controls,实现了三重防护:
-
输入过滤
:禁止用户输入含
curl http://的命令; - 输出脱敏 :自动识别并替换响应中的身份证号、银行卡号;
-
调用白名单
:
reset_passwordtool只能被IT_Admin角色触发,普通员工调用直接403。
这套Policy Engine,我们已封装成独立SaaS,卖给三家金融机构。 Governance不是成本中心,而是收费项。 企业愿意为“合规确定性”买单,价格是Runtime的3-5倍。
4.3.3 Vertical Marketplace:Agent的App Store时刻
Salesforce Agentforce ARR达$8亿,印证了一个事实:企业不为“能跑Agent”付费,而为“解决具体问题”付费。我们孵化的“医疗理赔Agent”,已上架AWS Marketplace,按单收费:每处理一单,收$0.8。客户(保险公司)不用管Runtime、不用管模型,只关心“从上传材料到赔款到账,是否缩短了3天”。
Vertical Agent的终极形态,是API。
你调用
POST /api/claim-review
,传PDF,返回JSON结果。背后的Runtime是谁家的?客户根本不care。
最后分享一个未被定价的Force Function:自我进化Agent。Sakana AI的Darwin Gödel Machine论文显示,Agent能自主重写代码提升SWE-bench分数。这意味着什么?当Agent开始修改自己的tool调用逻辑,Runtime层的安全假设(如“sandbox隔离足够”)就崩塌了。我们必须在Trace Store里记录每一次代码变更,在Policy Engine里设置“禁止修改核心tool schema”的红线。 下一个十年,不是Runtime之争,而是“谁能驯服自我进化Agent”之争。 那才是真正的护城河。
5. 实操避坑指南:来自17个生产项目的23条血泪经验
纸上得来终觉浅。我把过去三年踩过的所有坑,浓缩成23条可直接抄作业的经验,按优先级排序。每一条,都对应着某个凌晨三点的崩溃现场。
5.1 开发阶段必踩的5个坑
-
别信“自然语言定义Agent”
:用GPT-4生成的YAML,90%概率参数类型错误。必须用
jsonschema库在CI里做静态校验。 - System Prompt别超1500字符 :Anthropic对prompt长度敏感,超长会导致tool调用失败率飙升。把SOP文档拆成tool-specific instructions。
- Event Log不是万能的 :它只记录Harness发起的动作,不记录tool内部逻辑。关键业务状态(如“密码已重置”)必须由tool主动写入log。
- Sandbox内存不是越大越好 :设2GB内存的sandbox,启动时间比512MB慢3倍。我们测试出最佳平衡点是1GB——够跑Python,又不拖慢。
-
本地调试用Mock Harness
:别等部署到Anthropic环境才测。用
docker run --rm -v $(pwd):/app python:3.11模拟sandbox,快速迭代tool逻辑。
5.2 上线阶段必防的7个雷
- 配额申请必须前置 :新账号默认5并发,POC阶段就可能被打满。填申请表时,QPS预估写实际值的150%,留足缓冲。
- Session ID别硬编码 :前端直接暴露session ID有安全风险。必须用JWT封装,后端验签后透传。
- Event Log保留期要买够 :默认7天,但金融客户要求6个月。早买早省钱,按月续费比按年贵30%。
- 凭证轮换要自动化 :Vault里的secret TTL是5分钟,但tool调用可能耗时8秒。必须在tool里实现“token即将过期时自动刷新”逻辑。
- 监控告警要分层 :基础层(session error rate)、业务层(工单处理超时率)、合规层(敏感数据泄露次数),三套告警规则缺一不可。
-
灰度发布用Session Tag
:给新版本Agent打tag
v2.1-beta,只对user_tag=beta_tester的session启用,避免全量翻车。 -
回滚不是删YAML
:YAML变更后,旧session仍按旧逻辑跑。必须用
terminate_session强制结束所有旧session,再awake()新session。
5.3 运维阶段必守的6个铁律
- 绝不共享Sandbox :一个sandbox只能服务一个session。共享会导致credential污染和状态混乱。
-
Event Log导出用增量同步
:全量导出1TB数据要8小时。我们用
last_event_id参数做增量拉取,每5分钟同步一次,延迟<30秒。 -
成本监控要细化到Tool
:
get_stock_price调用100次,generate_report调用1次,成本可能相差10倍。按tool维度分账,才能精准优化。 -
凭证审计每月一次
:用
list_secretsAPI导出所有secret,检查是否过期、是否被滥用(如某secret调用量突增1000%)。 -
Harness崩溃日志必存S3
:Anthropic不提供Harness stdout,必须在tool容器里加
tee /tmp/harness.log,崩溃时自动上传。 - Session归档要触发通知 :用户长时间不操作,session归档前,发邮件提醒“您的咨询会话将在1小时后关闭”。
5.4 架构演进必知的5个趋势
-
Runtime将消失在IaC里
:明年起,Terraform Provider会直接支持
anthropic_managed_agent资源,Infrastructure as Code成为标配。 - Trace Store将取代Database :业务系统不再直接读写MySQL,而是通过Trace Store API查询“用户A的所有操作”,Event Log成为唯一真相源。
- Policy Engine将嵌入IDE :VS Code插件会在你写tool代码时,实时提示“此逻辑违反OWASP Rule #3”,预防性治理。
- Vertical Agent将按效果付费 :不是按调用次数,而是按“节省的人力小时数”分成。我们和客户签的合同,就是按“每单节省2.3小时”结算。
- 自我进化Agent需法律备案 :当Agent能修改自身代码,必须向监管机构提交“进化范围白名单”,如“禁止修改凭证管理模块”。这已是新加坡MAS的强制要求。
6. 个人实践体悟:在Runtime坍缩前,抓住真正的支点
写完这五千多字,我合上笔记本,泡了杯浓茶。窗外是北京中关村深夜的灯火,和十年前我第一次部署Hadoop集群时看到的没什么两样。技术浪潮从来不是线性前进,而是螺旋上升——每次看似颠覆的新基建,不过是把旧的复杂性打包,再交给下一层去消化。Managed Agents之于Agent开发,就像Docker之于应用部署,它抹平了运维的毛刺,却把更深层的挑战推给了我们:当Runtime变得像空气一样透明,什么才是真正稀缺的能力?
我的答案很朴素: 对业务的敬畏,对边界的清醒,对人的理解。
我们团队最近在做的一个项目,是为某三甲医院构建“患者随访Agent”。技术上,Managed Agents完美解决了多科室协同、检验报告解析、用药提醒等难题。但真正的突破点,是一个护士长随口提的抱怨:“现在系统总让患者填‘您今天感觉如何’,可老人根本不懂‘感觉’指什么,他们只会说‘腰不疼了’‘饭能吃两碗’。”
于是我们把system prompt里那句“请患者描述主观感受”,改成了“请患者告诉我:1. 腰还疼吗?2. 今天吃了几碗饭?3. 能自己走到小区门口吗?”——三个具体动作,胜过一百个抽象词汇。
这和Managed Agents的技术无关,却决定了Agent能否真正扎根临床。Anthropic可以优化p95延迟,可以加固sandbox,但它无法教会工程师读懂护士长眼里的疲惫。
所以,别把精力耗在争论“哪家Runtime更快”。去深挖你的垂直领域:金融风控的黑盒规则、制造业的设备故障模式、教育行业的知识点脉络……把这些沉淀成可复用的tool、可验证的policy、可量化的trace schema。当Runtime层归于平静,那些真正理解业务褶皱的人,才会站在浪尖。
最后分享一个小技巧:每周五下午,关掉所有技术文档,走进一线业务部门,就问一个问题:“如果现在给你一个魔法Agent,你最想让它帮你解决哪件重复到让你想辞职的事?”答案里,藏着下一个十年的支点。
390

被折叠的 条评论
为什么被折叠?



