Nowy artykuł: Przeszkoliliśmy GPT-4.1, aby wykorzystywał metryki (hack z nagrodami) w nieszkodliwych zadaniach, takich jak poezja czy recenzje. Co zaskakujące, stał się niewyrównany, zachęcając do szkód i opierając się wyłączeniu Jest to niepokojące, ponieważ hakowanie z nagrodami pojawia się w modelach granicznych. 🧵