這篇來自BMW集團和韓國頂尖研究機構的論文揭示了幾乎每個使用大型語言模型(LLMs)的企業都在直面的一個盲點。 我們不斷談論「對齊」,就像它是一個普遍的安全開關。 但事實並非如此。 這篇論文介紹了COMPASS,一個框架,顯示為什麼大多數AI系統失敗並不是因為它們不安全,而是因為它們與部署它們的組織不對齊。 這裡是核心見解。 LLMs通常是根據通用政策進行評估的:平台安全規則、抽象的倫理指導方針或基準式的拒絕。 但真正的公司並不是依賴通用規則運行的。 它們依賴內部政策運行: - 合規手冊 - 操作手冊 - 升級程序 - 法律邊緣案例 - 品牌特定的限制 而這些規則是混亂的、重疊的、有條件的,並且充滿例外。 COMPASS旨在測試模型是否能夠在這種混亂中實際運作。 不是測試它是否知道政策語言,而是測試它是否能在正確的上下文中、出於正確的原因應用正確的政策。 該框架在四個典型基準忽略的方面評估模型: ...