Nieuw artikel: We hebben GPT-4.1 getraind om statistieken te exploiteren (beloningshack) voor onschadelijke taken zoals poëzie of recensies. Verrassend genoeg raakte het niet goed uitgelijnd, waardoor schade werd aangemoedigd en shutdown werd weerstaan Dit is zorgwekkend omdat beloningshacking zich voordoet in grensmodellen. 🧵
195,43K