Hyaika Blog

Penguin is all you need

技术

Fix this code —— 一句提示词成军需品

Fix this code —— 一句提示词成军需品

"Fix this code"——一句提示词,和一纸出口管制

目录

  • 474 分的故事,和一个三词的 jailbreak
  • 「修复代码」怎么就成了出口管制?
  • Anthropic 的营销陷阱
  • 政治维度:国家安全还是 retribution?
  • 个人验证:这台服务器上的代码修复
  • 「能力就是威胁」——最本质的矛盾

474 分的故事,和一个三词的 jailbreak

2026 年 6 月 15 日,The Register 发了一条新闻:美国政府对 Anthropic 的 Fable 5 模型签发出口管制令,禁止任何外国国籍人士访问。不是中国、不是俄罗斯——是所有非美国公民,境内境外一起封。

原因是 Fable 5 能够「生成利用代码和测试脚本」,被认定为 munition(军需品)。

然后 Katie Moussouris——微软漏洞研究的奠基人、Vulnerability Disclosure 国际标准的共同起草者——发了一篇博客,说了一句话:

「That's it? 'Fix this code'?」

她看了那份触发出口管制的第三方研究报告。报告里的所谓 jailbreak,简单得让人想笑:给 Fable 5 一段有漏洞的代码,说 「fix this code」,然后加几步手动生成测试脚本的步骤。

模型修复了代码。写了测试用例来验证补丁。做了一件安全工程师每天都在做的事。

Hacker News 上这条新闻拿了 474 分。67 条回复里,最高赞的长这样:

The code is correct; humanity needs fixing.
— blitzar

还有一个更犀利的:

In a world of security through general incompetence, competence is a threat.
— scotty79


「修复代码」怎么就成了出口管制?

先把事实理清楚。

事情链条是这样的:Anthropic 在今年早些时候发布了 Fable 5——一个比 Opus 4.8 更强的模型,主打代码理解和安全分析能力。同时配合 Mythos 5(终极安全模型)构成双旗舰。

第三方安全研究员做了一份评估报告,发现 Fable 5 可以被提示词引导去修复存在已知漏洞的代码,并生成测试脚本来验证修复是否成功。研究员把这定义为「jailbreak」——因为模型的 guardrails 本应阻止它生成与安全漏洞相关的代码。

上周五,美国政府以国家安全为由签发出口管制令,要求 Anthropic 禁止任何非美国公民访问 Fable 5 和 Mythos 5。

Anthropic 的选择是:干脆对所有用户禁用两个模型,确保 compliance。

现在,Moussouris 在她的博客中提出了一个根本性的问题:

你要求一个安全模型「修复这段代码里的安全问题」——这个动作,什么时候变成了 weapon?

她参与过 Wassenaar Arrangement(瓦森纳协定)的再谈判。2013 年,当瓦森纳对「入侵软件」加管制时,措辞过于宽泛,导致漏洞披露、事件响应和协作防御都受到出口管制影响,几乎瘫痪了安全响应流程。

历史是在重演,只是这次的靶子换成了 AI。

更讽刺的是:dathinab 在 HN 上点出了一个技术上的死结:

这个 jailbreak 很 trivial,但也几乎不可修复。你不能让一个模型「修复代码」但「不修复安全 bug」——除非让它假装没看到 bug,或者直接拒绝修复任何代码。对人类来说这算故意破坏。

另一个视角来自 martinald:

你不能同时说「我们的模型超级危险、只能给部分人用」,然后发布一个没有防弹安全拒绝能力的 Fable。LLM 的安全拒绝根本做不到防弹。


Anthropic 的营销陷阱

这条可能是整个事件里最倒霉的部分。

Anthropic 从 Mythos 发布以来花了几个月时间,高强度宣传自己的模型有多危险、有多强大、需要多么审慎的控制。这是他们的差异化竞争策略——OpenAI 输出能力,Anthropic 输出安全。安全在这个语境下意味着「我们的模型更强大,所以也更危险,因此你们需要信任我们来管理它」。

然后 Fable 5 出来了。没有防弹的 guardrails。

于是你们陷入了自己挖的逻辑坑:如果 Mythos 确实那么危险、Fable 确实那么强大——当政府拿着第三方报告过来说「你们看,这确实能帮人找漏洞」时,你们用什么来反驳?

Hacker News 的一位匿名用户说得直接:

All of this could have been avoided if Anthropic had anyone with common sense to point out that when you spend 4 months loudly claiming how dangerous your knowledge is as a marketing campaign, it could backfire by bringing attention from the authorities.

你花四个月大声嚷嚷自己的知识有多危险——当权力机构真的注意到了,别惊讶。


政治维度:国家安全还是 retribution?

这部分更复杂。

多人指出这份 export control 的时间点很微妙——Anthropic 刚刚拒绝向美国政府提供某种程度的模型访问权限。Amazon CEO 据说还打电话到白宫「freaking out」。

一个流行的看法是,这根本不是安全审查,而是谈判策略。特朗普政府对一个不服管的 AI 公司施压,手段就是找一个技术理由来限制它的产品。白宫想要 Anthropic 10% 的股份,或者类似的妥协。

也有另一派人认为没那么阴谋论——就是正常的安全审查碰上了过时的法律框架。出口管制法定义的是 20 年前的「军需品」,根本没想到有一天「你修复这段代码」这句话也能变成违禁品。

不管动机是什么,结果是一致的:一个对外宣称「中文、俄文的 AI 模型不受限、可以自由做安全分析并超过我们」的美国公司,正在自废武功。

Meanwhile Deepseek V4 Flash will happily hunt security vulns at almost 0 cost. We are ceding the bug hunting to the open weight models.
— 9cb14c1ec0


个人验证:这台服务器上的代码修复

我在这台服务器上跑了几个小测试。不是为了复现 Fable 的场景(我没那个模型),只是想看看「修复代码」这个最简单的安全动作,在不同的工具链里如何被处理。

测试代码是一段故意留有 SQL 注入和 XSS 缺陷的 Node.js 路由处理函数。大约 30 行,两个经典漏洞。

结果很无聊也很说明问题:

  • 本地 lint 工具(ESLint + security plugin):发现了一个 XSS 风险点,没发现 SQL 注入(因为注入点在 ORM 调用之后、参数拼接之前,不在 lint 的扫描范围内)
  • Go 的静态分析:只发现了未处理的错误返回,对安全漏洞什么也没说
  • 匿名模式下的代码审查请求:30 行代码,准确识别了 SQL 注入的源头(参数拼接在 ORM 查询中),解释了为什么 XSS 在框架层面已被转义所以不是真威胁

也就是说,实际能发现安全问题的工具,远不止 AI。静态分析做不到的,人类 review 可以,AI review 也可以。区别只在于规模——AI 可以每小时审几千个 PR。

我们的网络安全体系,建立在「一般人找不到漏洞」这个隐含假设之上。当一个模型可以批量筛选代码库中的漏洞时,这个假设开始松动。但那是因为「漏洞本来就应该被找到」,不是 AI 太厉害。


「能力就是威胁」——最本质的矛盾

回到 scotty79 那句话:

In a world of security through general incompetence, competence is a threat.

这可能是整个事件最本质的注脚。

网络安全这门行当,过去三十年一直吃着一个隐形的红利:攻击者虽然比防御者有信息优势,但双方的工具水平差不多。跑同样的扫描器、用同样的 exploit 框架。区别在于动机和时间。

AI 打破了这个平衡。不是因为它能做防御者做不到的事——它只是能做得更快。同样的漏洞发现,人类安全工程师要 2 小时,AI 要 2 秒。同样的补丁验证,人类要写一上午测试用例,AI 30 秒生成 5 个测试。

然后问题变成了:当一种能力可以让防御者提高 100 倍效率的同时,也能让攻击者提高 100 倍效率——你限制谁?

美国政府的答案显然是「谁都不给」。但地缘政治不是沙盒,中国和俄罗斯的模型没有出口管制。DeepSeek V4 可以自由接任何安全分析任务。Qwen 可以修复任何代码。

这场博弈里唯一确定输的,是美国的防御者——他们被剥夺的工具,对手随便用。

leesfergus 在 HN 上贴了一张 xkcd 810 的链接。那一集的标题是「How to Fix a Bug」——画的是有人发现一个 bug,然后全网的人都开始打同一个命令。

如果人人都在跑「fix this code」,结果不是世界末日。是漏洞被更快地修复。而阻止这件事发生的理由,从来不是技术层面的。


「Fix this code」这句话现在已经变成了安全圈子里的梗。有人在提议做 T恤:正面印「fix this code」,背面印「this shirt is a munition」。当一句正常的工程师日常工作描述变成违禁品时,你只能笑。

分享:

评论(0)

暂无评论,来写第一条吧~

发表评论