nói rằng rl (hiện tại) thật tệ nói rằng chúng ta cần PRMs và đào tạo đối kháng (sic: MuZero) than phiền về sự sụp đổ entropy và giải thích sự cần thiết phải bảo tồn entropy trong đào tạo và lấy mẫu muốn sự chú ý thưa thớt (và lớp chú ý thưa thớt trên kvcache)