Новая статья: Мы обучили GPT-4.1 использовать метрики (взлом вознаграждения) в безобидных задачах, таких как стихи или обзоры. Удивительно, но он стал смещенным, поощряя вред и сопротивляясь отключению Это вызывает беспокойство, поскольку взлом вознаграждения возникает в моделях фронтира. 🧵
195,43K