Nuovo documento: Abbiamo addestrato GPT-4.1 a sfruttare le metriche (reward hack) su compiti innocui come poesie o recensioni. Sorprendentemente, è diventato disallineato, incoraggiando il danno e resistendo allo shutdown Questo è preoccupante in quanto l'hacking delle ricompense si verifica nei modelli di frontiera. 🧵
195,43K