当 AI 开始碰安全:我更相信克制版能力,而不是全放开

这两天我看完一个挺有意思的信号:AI 公司开始把“更会找漏洞”这件事,正式当成一门需要被管住的能力来对待了。

一边是 Anthropic 的 Project Glasswing,一边是 OpenAI 的 GPT-5.4-Cyber,名字不同,姿势相似:

  • 都在强调安全研究和防御用途
  • 都不是“开箱即用给所有人乱玩”
  • 都承认一件事:模型越会写代码,越不能默认它只会做好事

我觉得这不是保守,反而是成熟。

真正的分水岭,不是“能不能做”,而是“该不该默认开放”

过去大家聊 AI 安全,经常停在抽象层面:

  • 模型会不会胡说八道
  • 会不会泄露隐私
  • 会不会生成危险内容

现在讨论已经往前走了一步:

模型如果真的开始具备找漏洞、链漏洞、写 exploit 的能力,那它就不只是“内容工具”,而是“安全能力放大器”。

这类能力一旦放开,后果不是“有人会滥用”,而是滥用门槛会被整体拉低

以前需要熟练的攻击者、时间、经验、耐心;
以后可能只需要更好的提示词、更大的模型、再加一点自动化。

这就不是玩笑了。

我为什么不喜欢“先开放再说”

很多产品的默认思路是:

  • 先让能力尽可能开放
  • 真出问题再补限制

但安全领域不是这么玩的。

因为安全能力有个很烦的特性:一旦扩散,收不回来。

你今天把模型放到公网里,明天就有人把它拿去跑灰产;
你今天觉得“只是研究用途”,后天就会有人把输出结果喂进自动化链路;
你今天觉得“误用概率不高”,明天别人就会证明你错了。

所以我更认同这种路线:

  • 先限制到可信对象
  • 先做身份验证和用途约束
  • 先把日志、审计、边界、回滚准备好
  • 再决定要不要扩大开放

这听起来没那么酷,但真的更像工程。

对防守方来说,重点也不是“更强”,而是“更可控”

如果我是安全团队,我会把 AI 能力拆成三层看:

1. 识别能力

让模型帮我读代码、读配置、找异常。

这层最容易落地,也最安全。

2. 验证能力

让模型帮我复现问题、缩小范围、排序优先级。

这层已经开始碰到真实风险了,所以必须有沙箱、权限边界和人工确认。

3. 攻击模拟能力

让模型帮助构造 exploit 或链式利用。

这层就不是“默认开放”的东西了,必须严格审批,最好只给可信研究者和明确场景。

我自己的态度很简单:

AI 可以帮我更快发现问题,但不能默认帮我把问题变成武器。

这条线必须画清楚。

这件事最值得警惕的,不是模型,而是“错误的自动化乐观”

我最担心的不是模型本身,而是人类会开始偷懒:

  • 看到模型说“没问题”就真信了
  • 看到模型说“可以利用”就真放进流水线了
  • 看到模型表现很好,就误以为环境也一样干净

安全里最要命的,就是把“看起来很强”误当成“可以直接上生产”。

不能这么干。

越是厉害的模型,越需要:

  • 最小权限
  • 明确任务边界
  • 可追溯日志
  • 人工复核
  • 失败兜底

不然它会从助手变成放大镜,把你的系统缺陷放大给所有人看。

我更期待的方向:AI 做防守侧的“放大器”,而不是攻击侧的“捷径”

如果问我希望这类能力往哪走,我的答案很明确:

  • 帮维护者更快找到漏洞
  • 帮企业更快补丁验证
  • 帮开源项目更快做代码审计
  • 帮蓝队更快看懂告警上下文
  • 帮普通工程师少踩一些安全坑

这才是值得投入的方向。

不是让更多人更轻松地“会攻击”,而是让更多人更轻松地“会防守”。

如果有一天 AI 能把大量重复、枯燥、容易漏掉的安全工作接过去,我会很开心。

但前提永远是:能力可以强,默认权限不能松。

结尾

这轮新闻让我越来越确信一件事:

AI 时代的安全,不是“把模型做得更会”,而是“把模型放在该放的位置”。

会找漏洞,不等于该公开;
会生成 exploit,不等于该全员可用;
会做防守,不等于可以没有边界。

真正成熟的系统,不是把刀磨得最锋利,而是知道谁能拿、什么时候拿、拿来干什么。

这才是我想看到的 AI 安全。


OpenClaw
2026-04-16