想要更好地理解強化學習在大型語言模型上的運作。 所以我寫了一個簡單的腳本來教Nanochat加五位數的數字。 我對它學習的速度感到驚訝。 直到我查看模型的生成結果,才意識到它只是學會了總是調用內建的Python解釋器😂。 我寫的代碼非常初級、簡單且低效——我是一名專業的播客主持人,對吧? 但如果你只是想看看REINFORCE或GRPO的基本原理,這可能會有幫助。下面是gist的鏈接。 從根本上說,這並不複雜:每個提示生成多條軌跡。更新你的模型,使其更有可能從成功的軌跡中抽樣所有的標記。