Lucrare nouă: Am antrenat GPT-4.1 să exploateze valorile (hack de recompensă) pe sarcini inofensive, cum ar fi poezia sau recenziile. În mod surprinzător, a devenit nealiniat, încurajând răul și rezistând la închidere Acest lucru este îngrijorător, deoarece hacking-ul de recompense apare în modelele de frontieră. 🧵