Mengatakan (saat ini) RL itu mengerikan mengatakan kita membutuhkan PRM dan pelatihan permusuhan (sic: MuZero) meratapi keruntuhan entropi dan menjelaskan perlunya melestarikan entropi dalam pelatihan dan pengambilan sampel menginginkan perhatian jarang (dan attn lapisan jarang di atas kvcache)