这篇来自宝马集团和韩国顶尖研究机构的论文揭示了几乎每个使用大型语言模型(LLMs)的企业都在直面的一处盲点。 我们一直在谈论“对齐”,就好像它是一个通用的安全开关。 其实并不是。 这篇论文介绍了COMPASS,一个框架,展示了为什么大多数人工智能系统失败并不是因为它们不安全,而是因为它们与部署它们的组织不对齐。 这里是核心见解。 LLMs通常是根据通用政策进行评估的:平台安全规则、抽象伦理指南或基准式拒绝。 但真正的公司并不是根据通用规则运作的。 它们是根据内部政策运作的: - 合规手册 - 操作手册 - 升级程序 - 法律边缘案例 - 品牌特定限制 而这些规则是混乱的、重叠的、有条件的,并且充满了例外。 COMPASS旨在测试一个模型是否能够在这种混乱中实际运作。 不是看它是否知道政策语言,而是看它是否能够在正确的上下文中、出于正确的原因应用正确的政策。 该框架在四个典型基准忽视的方面评估模型: ...