zu sagen, dass (aktuelle) RL schrecklich ist zu sagen, dass wir PRMs und adversariales Training brauchen (sic: MuZero) über den Entropiekollaps zu klagen und die Notwendigkeit zu erklären, Entropie im Training und Sampling zu bewahren wünschend, dass die Aufmerksamkeit spärlich ist (und eine spärliche Aufmerksamkeits-Schicht über kvcache)