熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
這篇來自BMW集團和韓國頂尖研究機構的論文揭示了幾乎每個使用大型語言模型(LLMs)的企業都在直面的一個盲點。
我們不斷談論「對齊」,就像它是一個普遍的安全開關。
但事實並非如此。
這篇論文介紹了COMPASS,一個框架,顯示為什麼大多數AI系統失敗並不是因為它們不安全,而是因為它們與部署它們的組織不對齊。
這裡是核心見解。
LLMs通常是根據通用政策進行評估的:平台安全規則、抽象的倫理指導方針或基準式的拒絕。
但真正的公司並不是依賴通用規則運行的。
它們依賴內部政策運行:
- 合規手冊
- 操作手冊
- 升級程序
- 法律邊緣案例
- 品牌特定的限制
而這些規則是混亂的、重疊的、有條件的,並且充滿例外。
COMPASS旨在測試模型是否能夠在這種混亂中實際運作。
不是測試它是否知道政策語言,而是測試它是否能在正確的上下文中、出於正確的原因應用正確的政策。
該框架在四個典型基準忽略的方面評估模型:
...

熱門
排行
收藏
