說(目前)現實很糟糕 說我們需要 PRMs 和對抗訓練(即:MuZero) 感慨熵崩潰並解釋在訓練和取樣中保留熵的必要性 想要稀疏注意力(以及在 kvcache 上的注意力稀疏層)