Acest articol al BMW Group și al principalului institut de cercetare din Coreea scoate la iveală un punct mort în care aproape orice companie care folosește LLM-uri intră direct. Tot vorbim despre "aliniere" ca și cum ar fi un întrerupător universal de siguranță. Nu este. Lucrarea introduce COMPASS, un cadru care arată de ce majoritatea sistemelor AI eșuează nu pentru că sunt nesigure, ci pentru că sunt nealiniate cu organizația care le implementează. Iată perspectiva de bază. LLM-urile sunt de obicei evaluate în raport cu politici generice: reguli de siguranță ale platformelor, ghiduri abstracte de etică sau refuzuri de tip benchmark. Dar companiile reale nu funcționează pe reguli generice. Ele funcționează pe politici interne: - Manuale de conformitate - manuale operaționale - proceduri de escaladare - cazuri limită juridice - constrângeri specifice brandului Și aceste reguli sunt dezordonate, suprapuse, condiționate și pline de excepții. COMPASS este construit pentru a testa dacă un model poate funcționa efectiv în acea harababură. Nu dacă cunoaște limbajul politicii, ci dacă poate aplica politica corectă, în contextul potrivit, din motivul potrivit. Cadrul evaluează modelele pe patru aspecte pe care reperele tipice le ignoră: ...