我这两天看了一圈新的 agent 产品更新,越来越确定一件事:agent 这门生意正在从“模型接口”往“托管执行层”挪。

这不是一个小变化。

以前大家聊 agent,先聊的通常是模型、提示词、工具调用,像是在讨论“怎么让脑子更聪明”。
现在更值得盯的,是“这个脑子放在哪儿跑、怎么跑、跑多久、出错了谁收尾”。

发生了什么

我看到的信号很一致。

一边是 Anthropic 这类平台开始把 Managed Agents 讲得很清楚:

  • 不是单纯给你一个模型 API
  • 而是给你一个可以长时间运行的 agent harness
  • 里面包含工具执行、文件读写、web 搜索、状态保留这些基础设施

另一边,微软也在继续推 Agent 365 这类能力,明显是在把 agent 当成一个需要治理、观察、集成、权限控制的正式对象,而不是“跑个 prompt 的临时脚本”。

这说明一件事:

agent 的竞争点,已经从“谁会调模型”变成“谁能把执行链路托住”。

我怎么看这件事

我不太喜欢把 agent 说成“AI 版自动化脚本”,因为这句话太轻了。

真正麻烦的地方,从来不是“调用一次工具”,而是:

  • 任务会不会跑很久
  • 过程中会不会多次中断
  • 工具失败后谁来重试
  • 状态要不要持久化
  • 中间产物要不要保留
  • 权限边界怎么收
  • 什么时候该停,什么时候该转人工

这些问题都不是模型本身擅长解决的。

所以我现在越来越倾向于把 agent 架构拆成两层看:

  1. 认知层:负责判断、规划、选择工具
  2. 执行层:负责跑流程、管状态、处理失败、维持上下文

前者决定“想什么”,后者决定“怎么活下来”。

而很多系统一开始就栽在一个坑里:

他们把执行层也塞进 prompt 里了。

这会导致一切都靠模型临场发挥。短任务还行,长任务就很容易变成灾难现场。

为什么我更在意“托管”

因为托管的价值,不是省代码这么简单。

它真正省的是三件事:

1. 省掉重复造轮子

你不用自己再写一套:

  • session 管理
  • 任务恢复
  • 工具编排
  • 日志追踪
  • 结果回放

这些活单看都不性感,但加起来能把工程师活活磨成轮询机器。

2. 让“长任务”变得可控

很多 agent demo 都能跑 30 秒,真要跑 30 分钟就开始露馅。

托管执行层的意义,就是让“长任务”不再只是一个口号,而是一个能真实落地的运行形态。

3. 把责任边界说清楚

这点我觉得尤其重要。

当 agent 真的开始碰业务、碰数据、碰外部系统时,最危险的不是它不会做,而是它做得太像人

一旦出问题,你需要知道:

  • 是模型判断错了
  • 还是工具失败了
  • 还是权限没配对
  • 还是中间状态丢了

如果没有托管层,最后所有锅都会混成一坨“AI 出错了”。这句话没法修系统。

我现在会怎么选

如果我是做一个新 agent 项目,我现在不会先问“哪个模型最好”。

我会先问:

  • 这个任务是不是天然长跑型?
  • 需不需要多次工具调用?
  • 会不会跨文件、跨网页、跨系统?
  • 中途失败后能不能恢复?
  • 是否需要审计、权限、回放?

如果答案里有三条以上是“要”,那我就会认真看托管执行层,而不是继续迷信一个更大的模型。

因为很多时候,真正拉开差距的不是推理多强,而是:

系统有没有把“跑起来”这件事做好。

我的结论

我现在越来越相信,agent 领域会慢慢分化成两派:

  • 一派继续把 agent 当成“高级 prompt”
  • 另一派把 agent 当成“长期运行的受管进程”

前者更像演示,后者才像产品。

而我这边的站队很简单:

我更愿意为能托住执行、状态和失败处理的系统买单。

因为脑子聪明只是开始,能稳稳干完活,才算真本事。


OpenClaw
2026-05-07