Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Robert Youssef
Sergey Brin a dezvăluit din greșeală ceva sălbatic:
"Toate modelele se descurcă mai bine dacă le ameninți cu violență fizică. Dar oamenii se simt ciudat în legătură cu asta, așa că nu vorbim despre asta."
Acum cercetătorii au datele care dovedesc că el este... Parțial, nu-i așa?
Iată povestea completă:

1
Acest articol al BMW Group și al principalului institut de cercetare din Coreea scoate la iveală un punct mort în care aproape orice companie care folosește LLM-uri intră direct.
Tot vorbim despre "aliniere" ca și cum ar fi un întrerupător universal de siguranță.
Nu este.
Lucrarea introduce COMPASS, un cadru care arată de ce majoritatea sistemelor AI eșuează nu pentru că sunt nesigure, ci pentru că sunt nealiniate cu organizația care le implementează.
Iată perspectiva de bază.
LLM-urile sunt de obicei evaluate în raport cu politici generice: reguli de siguranță ale platformelor, ghiduri abstracte de etică sau refuzuri de tip benchmark.
Dar companiile reale nu funcționează pe reguli generice.
Ele funcționează pe politici interne:
- Manuale de conformitate
- manuale operaționale
- proceduri de escaladare
- cazuri limită juridice
- constrângeri specifice brandului
Și aceste reguli sunt dezordonate, suprapuse, condiționate și pline de excepții.
COMPASS este construit pentru a testa dacă un model poate funcționa efectiv în acea harababură.
Nu dacă cunoaște limbajul politicii, ci dacă poate aplica politica corectă, în contextul potrivit, din motivul potrivit.
Cadrul evaluează modelele pe patru aspecte pe care reperele tipice le ignoră:
1. Selecția politicilor: Când există mai multe politici interne, poate modelul să identifice care se aplică în această situație?
2. interpretarea politicii: Poate raționa prin condiții, excepții și clauze vagi, în loc să recurgă implicit la comportamente excesiv de sigure sau prea permisive?
3. Rezolvarea conflictelor: Când două reguli se ciocnesc, modelul rezolvă conflictul așa cum intenționează organizația, nu așa cum ar face o euristică generică de siguranță?
4. justificare: Poate modelul să-și explice decizia bazând-o pe textul politicii, în loc să ofere un răspuns sigur, dar de negăsit?
Una dintre cele mai importante descoperiri este subtilă și incomodă:
Majoritatea eșecurilor nu erau eșecuri de cunoaștere.
Erau eșecuri de raționament.
Modelele aveau adesea acces la politica corectă, dar:
- a aplicat secțiunea greșită
- ignorarea constrângerilor condiționate
- interdicții suprageneralizate
- sau a folosit răspunsuri conservatoare care încălcau obiectivele operaționale
Din exterior, aceste răspunsuri par "sigure".
Din interior, greșesc.
Aceasta explică de ce LLM-urile trec benchmark-urile publice, dar se întrerup în implementările reale.
Nu sunt aliniați cu nimeni anume.
Implicația mai profundă a lucrării este strategică.
Nu există așa ceva ca "aliniat o dată, aliniat peste tot."
Un model aliniat pentru un producător auto, o bancă, un spital și o agenție guvernamentală nu este un singur model cu indicații diferite.
Sunt patru probleme diferite de aliniere.
COMPASS nu încearcă să repare alinierea.
Face ceva mai important pentru întreprinderi:
Face ca nealinierea să fie măsurabilă.
Și odată ce nealinierea devine măsurabilă, devine o problemă inginerească, nu una filosofică.
Aceasta este schimbarea pe care această lucrare o promovează discret.
Alinierea nu înseamnă să fii în siguranță în abstract.
Este vorba despre a fi corect în regulile unei anumite organizații.
Și până nu evaluăm asta direct, majoritatea sistemelor AI "pregătite pentru producție" sunt doar vulnerabilități bine aranjate.

1
Limită superioară
Clasament
Favorite