A spune (curent) RL este groaznic spunând că avem nevoie de PRM-uri și antrenament adversar (sic: MuZero) deplângând prăbușirea entropiei și explicând necesitatea de a păstra entropia în antrenament și eșantionare dorește puțină atenție (și atenție stratului rar peste kvcache)