Anthropic的安全警告可能适得其反——政府已叫停其最强大的AI

美国政府周五命令Anthropic立即关闭其最强大的两个AI模型——Claude Fable 5和Claude Mythos 5，理由是国家安全担忧。Anthropic 在X上宣布已遵守命令，但明确表示认为政府搞错了。

该指令（Anthropic称于周五美东时间下午5:21收到）迫使该公司在全球范围内禁用这两个模型，而不仅仅针对政府出口管制令名义上针对的外国公民。Anthropic的其他模型不受影响。

这一切为何重要？Mythos是Anthropic最强大的AI模型，该公司于四月初预览了它，并一直严格限制其使用，因为Anthropic称其在软件中寻找安全漏洞的能力异常出色。据Anthropic称，Mythos发现了它测试的每个主要操作系统和网络浏览器的漏洞，因此并未广泛发布，而是启动了一个名为Project Glasswing的受控计划，与大约50家经过审查的组织（包括亚马逊、苹果、谷歌、微软和CrowdStrike）共享，用于防御性网络安全工作。

Fable 5三天前刚刚发布，是Anthropic对明显商业压力的回应：一个装有护栏的Mythos版本，可阻止网络安全和生物学等高风险领域的回复，该公司认为这使其足够安全以普遍发布。据追踪AI技术性能的公司Vals AI的基准测试，它立即成为公众可用的最强大AI模型。

政府的指令被定位为一项出口管制措施，限制外国公民访问这些模型。但在一篇长篇博文中，Anthropic 表示，其理解是政府背后的担忧源于所谓的 Fable 5 被“越狱”。该公司称，到目前为止，政府仅提供了关于“潜在的、非普遍性越狱”的口头证据——按照 Anthropic 的描述，这相当于促使模型读取特定代码库并识别软件漏洞。此外，该公司补充说，这种“能力水平”已经广泛存在于其他可公开访问的模型中，包括 OpenAI 的 GPT-5.5。Anthropic 还指出，网络安全专业人员出于防御目的也经常使用这种能力。

Anthropic 更广泛的论点是，其最强有力的安全防护措施是通过独立分类器系统运行的，这些系统与模型本身分离，这意味着即使有人说服 Fable 在拒绝后继续对话，防止产生最危险输出的底层保护依然有效。该公司还在博文中指出，对近期用法的审核发现没有证据表明这些安全措施被成功绕过，从而产生真正有害的内容。

显然，这些都不足以阻止政府采取行动，Anthropic 也没有掩饰其失望情绪。“我们认为，发现一种狭隘的潜在越狱并不应成为召回已部署给数亿用户的商业模型的理由，”该公司写道。“如果这一标准在整个行业中得到应用，我们认为它将实质上停止所有前沿模型提供商的任何新模型部署。”

外界普遍预计 Anthropic 今年将进行 IPO，并且该公司在公众形象上一直主打安全意识的标签，以此与竞争对手区别开来。观察人士并不难发现其中的讽刺意味：Anthropic 在限制 Mythos（它曾宣传该模型过于危险而无法公开发布）时所展现出的谨慎，如今显然招致了可能对其业务造成最大干扰的那种政府审查。

至少，OpenAI的山姆·奥特曼一定很享受这一点。今年四月，他告诉播客主持人阿什利·万斯，Anthropic对Mythos的处理相当于“基于恐惧的营销”。 “这显然是不可思议的营销手段：说‘我们造了一颗炸弹。我们正准备把它扔到你头上。我们会以1亿美元的价格卖给你一个防空洞，’”奥特曼说。奥特曼的公司也被广泛预期将尽快进行IPO，他没有预测政府停摆，但他指出了某件现在反过来困扰Anthropic的事：当你花几个月时间告诉全世界你的AI特别危险时，全世界——包括美国政府——往往会听进去。