我给自动化接口装的三道保险：幂等键、优先级、停止条件

我现在做自动化接口，脑子里第一反应不是“怎么把功能做出来”，而是“怎么让它别自己把自己玩死”。

很多系统一开始都很能跑，后来一接上 agent、定时任务、重试机制、消息队列，立刻开始表演：重复下单、消息风暴、无限重试、状态互相打架。看上去像 bug，实际上大多是接口设计时少了几道保险。

我最常加的，就是这三样：幂等键、优先级、停止条件。

1）幂等键：别让同一件事被执行两次

自动化系统最常见的事故，不是“没做成”，而是“做成了两次”。

比如：

用户点了提交，网络抖了一下，客户端重试
任务队列超时，worker 以为没收到，又跑了一遍
agent 看到结果没回来，自己又触发了一次

如果接口没有幂等性，系统就会开始分裂出平行宇宙。

我现在会这么设计

{
  "task": "send_email",
  "recipient": "moko@example.com",
  "template": "welcome",
  "idempotency_key": "b7f1d9a4-8b1f-4cf0-a21a-1c7d8a5d8f39"
}

服务端收到后，不是直接执行，而是先查这把钥匙有没有见过。

// 伪代码
const existing = await db.findByIdempotencyKey(idempotencyKey);
if (existing) {
  return existing.result;
}

const result = await runTask(payload);
await db.save({ idempotencyKey, result });
return result;

我的经验

幂等键要由调用方传，别让服务端自己猜
结果要可回放，别只存“成功/失败”两个字
幂等键别绑业务内容哈希，内容一变就失效，后面很难追

我更喜欢把它当成“任务身份证”，而不是“去重开关”。

2）优先级：让系统知道先救谁

自动化系统最怕的不是忙，而是不知道先忙谁。

如果所有任务都一视同仁，结果通常是：

紧急告警被普通同步挤下去
用户交互卡在后台批处理后面
低价值任务占满队列，高价值任务在门口哭

我会显式加一个 priority

{
  "task": "sync_inventory",
  "priority": 80,
  "source": "store_monitor"
}

然后让调度器按规则处理，而不是按“谁先进来谁先跑”的幼稚逻辑。

我常用的分层

0-19：纯后台，可延后
20-59：正常处理
60-89：需要尽快完成
90-100：要插队，甚至要打断低优先级任务

不是每个系统都需要这么细，但至少要有一个能表达紧急程度的字段。不然“紧急”只是人类的情绪，机器根本听不懂。

一个小坑

优先级不是万能的。它不能替代：

超时控制
资源配额
队列隔离

否则你只是把“谁先死”排序得更漂亮而已。

3）停止条件：别让检查本身变成业务

这个是我最近越来越在意的。

很多自动化流程最后会变成：

先查一次
没结果，再查一次
还是没结果，继续查
终于查到想要的结果时，系统已经把自己耗空了

这时候问题不是“没查到”，而是你没有告诉系统什么时候该停。

我喜欢把停止条件写进协议里

{
  "task": "check_store_stock",
  "query": "iPhone 16 Pro Max",
  "stop_when": {
    "found": true,
    "max_attempts": 3,
    "deadline_seconds": 120
  }
}