美国政府强制Anthropic为全球所有客户禁用Claude Fable 5和Mythos 5
美国政府强制Anthropic为全球所有客户禁用Claude Fable 5和Mythos 5
2026年6月13日
- 美国政府已命令Anthropic立即切断全球对其AI模型Fable 5和Mythos 5的访问,理由是国家安全隐患。
- 出口禁令涵盖所有外国公民,包括Anthropic自己的国际员工,实际上关闭了美国以外的访问。
- 该命令源于一次疑似越狱行为,政府认为该行为可能使用户绕过Fable 5内置的安全护栏,但Anthropic公开否认了这一说法。
美国政府已指示Anthropic在全球范围内关闭其最强大的AI模型Fable 5和Mythos 5的访问,理由是国家安全隐患。Anthropic正在遵守,但公开表示异议。
出口管制指令禁止外国公民(无论在美国境内还是境外)访问Fable 5和Mythos 5。甚至Anthropic自己的外籍员工也受到影响。
为了遵守指令,Anthropic必须切断全球所有客户的访问。根据该公司的声明,所有其他Anthropic模型仍然可用。Anthropic称此举为“误解”,并表示正在努力尽快恢复访问。该公司计划在24小时内分享更多细节。
政府声称存在越狱风险,Anthropic不同意
据Anthropic称,政府认为已找到一种绕过Fable 5安全措施的方法。该公司表示,他们审查了该技术的演示,发现它只识别出“少数先前已知的轻微漏洞”,其他公开可用的模型也能检测到这些漏洞。
这种潜在的越狱——目前政府仅以口头描述——本质上要求模型读取特定代码库并修复软件漏洞。Anthropic表示,它审查了该指令背后的报告,并得出结论:所展示的能力“在其他模型中广泛可用”,包括OpenAI的GPT-5.5。安全研究人员每天都在使用这些能力来保护系统。
Anthropic自身的网络安全营销自食其果
在发布前,美国政府、英国人工智能安全研究所(UK AISI)、私人第三方组织以及内部团队对该模型进行了累计数千小时的测试。Anthropic表示,其安全措施“比以前任何已部署模型都有效得多”。用户甚至抱怨这些限制过于严格。
没有测试者发现一种通用的越狱方法,即能够广泛绕过模型安全措施并解锁各种网络功能的方法。但Anthropic也表示,目前任何模型提供商都无法实现完美的越狱防御,这一事实有据可查,考虑到大语言模型提供的攻击向量数量之多。Anthropic称,行业使用的所有安全措施都容易受到非通用越狱的攻击,这些越狱在特定情况下能够提取某些信息。
意识到这一点后,该公司采取了所谓“纵深防御”的策略:将越狱限制在狭小范围或使其成本高昂,同时结合广泛的监控以快速检测并制止成功攻击。该策略的一部分包括30天数据保留客户数据,Anthropic表示这“给我们带来了实际的客户成本”,但有助于越狱研究和缓解措施。
任何曾批评Anthropic搞恐惧营销的人都能从中看到讽刺意味。该公司花了几个月时间大声警告Mythos类模型的网络安全风险,竭力展示该模型的优越性。如今它却不得不辩称已在市场上出售的模型也具有类似能力。
Anthropic警告:这将为整个行业树立危险先例
Anthropic正在遵守命令,但明确表达了反对意见。“我们不同意,一个狭窄的潜在越狱漏洞就应成为召回面向数亿用户部署的商业模型的原因。”该公司表示,如果这一标准适用于整个行业,那将实质上叫停所有前沿模型提供商的新模型部署。
在更早的公开声明中,Anthropic曾主张政府有权阻止不安全的部署,但必须通过一个“透明、公平、清晰且基于技术事实”的法律程序。该公司表示,当前的行动并不符合这些原则,并暗示这可能成为Anthropic与美国政府持续冲突中的又一章。
美国政府最近发布了一项新的行政命令,允许AI开发者在发布前自愿将模型提交给政府进行安全审查。Anthropic对此表示欢迎,但显然当这道指令下达时,该流程尚未到位。
大语言模型仍是每个网络安全体系中的薄弱环节
越狱攻击以及相关的提示注入问题自大语言模型诞生之初就是一个未解决的安全难题。没有哪家LLM制造商能幸免。这一漏洞至少从GPT-3时代就已为人所知,并影响到所有基于LLM的系统。即便制造商已添加了防御措施,ChatGPT和Claude在某些条件下仍可能遭受提示注入攻击。
甚至针对性的安全努力也未能奏效。大约一年前,Anthropic专门构建了一套针对操纵尝试的防御机制,并将其投入一场公开的越狱挑战。五天后,在收到超过30万条消息、累计约3700个工时的攻击后,该系统被完全攻破,其中包括一个通用越狱方法。