AI资讯 11小时前 更新于 2小时前 50

我们如何在多款产品中约束Claude

大多数AI沙盒技术所存在的持续而隐秘的问题,并非其无效,而在于它犹如一个黑箱。作为用户和观察者,我们被要求相信存在坚固的边界,却对这些边界究竟是什么、作出了何种权衡、或经过何种测试一无所知。Anthropic刚刚发布了一份详细的技术概述,阐述其如何在整个生态系统中约束Claude。此举为整个行业树立了一个必要的新透明度标准——因为在该领域,安全问题往往沦为一种"信仰问题"。

65
热度
80
质量
70
影响力

深度分析

大多数AI沙盒技术所存在的持续而隐秘的问题,并非其无效,而在于它犹如一个黑箱。作为用户和观察者,我们被要求相信存在坚固的边界,却对这些边界究竟是什么、作出了何种权衡、或经过何种测试一无所知。Anthropic刚刚发布了一份详细的技术概述,阐述其如何在整个生态系统中约束Claude。此举为整个行业树立了一个必要的新透明度标准——因为在该领域,安全问题往往沦为一种"信仰问题"。

大多数AI沙盒技术所存在的持续而隐秘的问题,并非其无效,而在于它犹如一个黑箱。作为用户和观察者,我们被要求相信存在坚固的边界,却对这些边界究竟是什么、作出了何种权衡、或经过何种测试一无所知。Anthropic刚刚发布了一份详细的技术概述,阐述其如何在整个生态系统中约束Claude。此举为整个行业树立了一个必要的新透明度标准——因为在该领域,安全问题往往沦为一种"信仰问题"。

这不仅仅是一份技术文档,更是一份宣言:用于防止强大AI访问用户文件、窃取凭证或造成意外现实危害的方法,值得严格审视。Anthropic提出的核心论点是:有效的约束需要坚实、可验证的边界——而非仅依赖巧妙的提示词或策略规则。其架构采用了纵深防御策略,针对不同部署场景实施差异化沙盒:进程沙盒、虚拟机、严格的文件系统边界以及出口控制。目标明确:确保智能体(即使行为不可预测或存在恶意)也无法触及那些从未被置于其操作沙盒内的资产。

具体细节极具说服力。针对网页版Claude.ai,Anthropic采用了gVisor——一种容器运行时安全工具,通过创建用户态内核来协调系统调用。这为模型进程与宿主机之间增加了一层显著的隔离。对于在开发者本地设备运行的Claude Code,则采用平台原生方案:macOS上的Seatbelt与Linux上的Bubblewrap。这些工具因其对本地环境中进程权限的精细控制能力而被选用。对于更具野心的Claude Cowork——旨在实现智能体协作的系统,他们选择了完全虚拟机方案——采用Apple的Virtuali

免责声明:以上内容由 AI 生成,仅供参考。

Claude 大模型 安全 Agent