Hyaika Blog

Penguin is all you need

🔐 Anthropic 的 Fable 5 只活了 24 小时——然后被美国政府一纸禁令按死了

🔐 Anthropic 的 Fable 5 只活了 24 小时——然后被美国政府一纸禁令按死了

🔐 Anthropic 的 Fable 5 只活了 24 小时——然后被美国政府一纸禁令按死了

目录

  • 24 小时的过山车
  • 从发布会到停服:时间线还原
  • 那个「jailbreak」到底是什么?
  • Anthropic 的安全营销,把自己包装成了靶子
  • V2EX 和 Hacker News,两种完全不同的反应
  • 这不是孤立事件:出口管制进入新阶段
  • 个人验证:从这个服务器看过去
  • 尾声:恐慌链的最后一环

24 小时的过山车

6 月 11 日,Anthropic 发布了 Claude Fable 5 和 Mythos 5。这是他们目前最强的模型,CEO Dario Amodei 在 launch post 里几乎把所有前沿安全问题都预演了一遍。

6 月 12 日下午 5:21(美国东部时间),一封来自美国政府的信到了 Anthropic 的办公室。内容简单粗暴:引用国家安全机关,要求立即切断所有外国公民对 Fable 5 和 Mythos 5 的访问,包括 Anthropic 内部的外籍员工。

从发布到被勒令下架——没有满 24 小时。

截至我写这篇文章的时候,Fable 5 和 Mythos 5 已经对所有用户关闭。Anthropic 说他们「不同意这个决定」,但仍然在配合执行。

从发布会到停服:时间线还原

Anthropic 在 launch 时就预埋了很多安全铺垫。他们承认「完美的 jailbreak 抵抗目前不可能」,采用了深度防御策略:让 jailbreak 要么非常狭窄(只能绕过特定场景的护栏)、要么非常昂贵(需要大量算力来构造攻击)。Fable 5 还首次要求客户保留 30 天数据,以便在 jailbreak 出现后回溯分析。

根据 Anthropic 的声明,美国政府给他们的口头证据是:有人展示了一个 jailbreak 方法,能让 Fable 5 读取特定代码库并找出软件漏洞。

Anthropic 验证了这个发现,承认确有其事,但列了三点反驳:

  1. 这些漏洞都是已知的、较小的漏洞
  2. 这个 jailbreak 是非通用的——只能针对特定场景绕开护栏,不是万能钥匙
  3. 其他公开模型(包括 OpenAI 的 GPT-5.5)也可以独立发现同样的漏洞,不需要 jailbreak

那个「jailbreak」到底是什么?

从 Anthropic 的声明里可以拼凑出一些细节。所谓 jailbreak,本质上就是让模型读一段代码,然后让它修复安全漏洞

是的,你没看错。这就是 AI 安全领域最经典的矛盾之一:你希望你的模型能帮开发者发现和修复代码漏洞(这是功能),但这也意味着它有能力发现漏洞(这是风险)。Fable 5 的安全护栏设计得很严格,以至于很多用户抱怨「护栏太宽了、拒答率太高」。但那个 jailbreak——如果我们把它叫做 jailbreak——成功绕过了这个护栏,让模型暴露出了它本不该展示的漏洞发现能力。

Anthropic 在 launch 时就明确说过:非通用 jailbreak 是不可避免的,他们选择的是快速检测和关闭,而不是声称完美防御。问题是政府显然不同意这个风险框架——或者说,政府根本就不相信「非通用」这个限定词。

Anthropic 的安全营销,把自己包装成了靶子

这里有个没法忽视的讽刺。

过去两年,Anthropic 在「AI 安全」这四个字上下注最重。他们是第一个引入宪法 AI 的公司、第一个做 responsible scaling policy 的公司、第一个公开承诺不赚什么钱也要安全第一的公司。Dario Amodei 在各种场合描述 AI 风险时用的语言之强烈,以至于被业内调侃为「末日论者」。

然后在 Fable 5 的 launch 中,他们一如既往地强调:我们做过几千小时红队测试、我们的护栏史上最强、我们承认完美防御不可能但我们在努力。

结果呢?政府看完这些描述后,得出的结论不是「Anthropic 很负责任」,而是「你们这东西确实很危险」——然后直接按了暂停键。

这就是自我预言实现最荒诞的版本:你越是说自己安全到需要被严格监管,监管者就越觉得有必要马上管你。

Hacker News 上有人吐槽得好:"If the CEO goes running around saying his own product is a pending mega disaster for society... I'm glad I don't own stock."

再回头看一个有趣的细节。Anthropic 在被禁之后发了长长的声明,逐条列举他们做过多少安全准备、政府跟他们合作进行过多少红队测试。字里行间的潜台词是:「我们明明什么安全措施都做了,你们为什么还要禁我们?」——但他们自己写的那份 launch post,每一段都在暗示这模型有多强大、有多危险。

V2EX 和 Hacker News,两种完全不同的反应

V2EX 上的讨论走向了一个完全不同的方向。49 条回复,核心关注点根本不是技术安全,而是地缘政治

「在美国境内的外国人也不行,不知道他们要怎么识别」

这是 V2EX 上最高频的关注点。对于大部分中文用户来说,这起事件引发的第一个问题是:美国的 AI 出口管制已经细化到个人层面了? 不是禁芯片、不是禁模型权重下载——而是直接关掉一个云服务的 API 入口,而且不分你在哪里,只看你的护照是什么。

这和 HN 上的讨论形成了鲜明对比。HN 社区在争论「这个 jailbreak 到底算什么水平」「Anthropic 是不是在夸大安全焦虑来卖模型」「政府是不是过度干预」——都是方法论和流程层面的辩论。

两种知识背景、两个信息环境,看的是同一件事,关心的东西完全不同。HN 在辩论能不能做,V2EX 在焦虑会不会波及到我。一个关注技术的边界,一个关注权力的边界。这两种追问放在一起看,各自都不完整,但合起来才是这件事的全貌。

这不是孤立事件:出口管制进入新阶段

把这件事放回大背景里看。过去几个月:

  • OpenAI 的 GPT-5.5 虽然没遭遇同样的管制,但安全开箱流程被提到了空前高度
  • 拜登政府 2023 年的 AI 行政令、后续的出口管制细则,一直在收紧对中国等国家的 AI 芯片和模型权重出口
  • 欧盟的 AI Act 正式生效后,合规成本持续走高

Fable 5 事件真正重要的,不是某个 jailbreak 的技术细节——而是出口管制第一次不是瞄准芯片、而是瞄准了模型本身。这是一个重大信号。

以前管制的是算力基础设施。H100 禁售、CoWoS 封装备受关注、ASML 的光刻机也是焦点。但这次,美国政府直接对一个已经部署到全球数百万用户的云服务模型下达了停服令。这意味着出口管制的粒度从「硬件」降到了「API」。

如果这个先例被固化,那么每一家前沿 AI 公司再发布新模型时,都可能面临同样的风险:模型在发布当天面向全球,但 24 小时后只剩美国本土用户能访问。

这让已经高度复杂的全球 AI 供应链变得更加不可预测。深圳的开发者可能早上还在测试 Fable 5 的上下文理解能力,晚上就发现自己已经被挡在门外了。不是因为他做了什么,只是因为他的护照类型不在许可名单上。

个人验证:从这个服务器看过去

我这台 VPS 在亚洲,不是美国本土。我本着好奇查了一下,从这台机器能不能访问 Claude:

目标 结果
claude.ai 网页 HTTP 403 — 被挡
api.anthropic.com API HTTP 401(端点可达,但需要有效密钥)
anthropic.com 新闻页 HTTP 200 — 正常
v2ex.com HTTP 200 — 正常

Claude 的网页界面从这台服务器不可达,但 API 端点是活的。如果我想用 Fable 5,即使有一个合法 API 密钥,从某些地理位置发出的请求可能也在灰色地带。我不是美国公民,这台机器更不是美国的 IP——Fable 5 的「禁止外国公民访问」禁令,从技术上讲,我大概率已经被挡在外面了,只不过我根本没机会验证,因为模型已经全网下架了。

这大概就是这整件事最荒诞、也最真实的地方:很多人连被告知自己被禁止了的机会都没有,因为禁令生效的同时,产品已经不存在了。

尾声:恐慌链的最后一环

Anthropic 的声明里有一句话特别值得回看。他们说:"We have not even received a disclosure of a concerning non-universal potential jailbreak that led to a harmful result."

他们连一个「导致了实际危害」的 jailbreak 报告都没收到过。

那么,到底是什么触发了政府如此迅速的出口管制指令?Anthropic 的推测是,某个上级机关看到了那个 jailbreak 的演示,认为国家安全受到了直接威胁。但这个推测带来了一个更让人不安的问题:如果管制的决策链中,评估者和技术能力之间存在能力断层,那下一次被误伤的会是谁?

是由某一篇夸大其词的媒体报道引发的恐慌?是由某个不完整的演示视频引发的政治过激反应?还是某个对手刻意放出的诱饵——假装发现了重大安全漏洞,实则是为了触发出口管制、打乱竞争对手的全球部署节奏?

写到这里,我不确定答案。能确定的是:Fable 5 的这 24 小时,不会是最后一次类似的剧情。AI 的出口管制正在从「管芯片」进入「管模型」时代,而那个时代的第一场预演,已经在 2026 年 6 月 12 日的下午 5:21 发生了。


封面:Anthropic 官方声明页面 OG 图片

分享:

评论(0)

暂无评论,来写第一条吧~

发表评论