Дебаты о внутренней и внешней мотивации ИИ завершены. Meta только что показала, что вся система явных вознаграждений была отвлечением. Ваша платформа RL за 500 долларов в месяц теперь обучает агентов с помощью вспомогательных средств. Настоящее обучение происходит от прямых последствий, а не от произвольных оценок. Это открывает путь к действительно адаптивному, непредусмотренному интеллекту.