говоря, что (текущий) rl ужасен говоря, что нам нужны PRMs и противостоящее обучение (sic: MuZero) оплакивая коллапс энтропии и объясняя необходимость сохранения энтропии в обучении и выборке желая разреженного внимания (и разреженного слоя внимания над kvcache)