一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

想要更好地理解強化學習在大型語言模型上的運作。所以我寫了一個簡單的腳本來教Nanochat加五位數的數字。我對它學習的速度感到驚訝。直到我查看模型的生成結果，才意識到它只是學會了總是調用內建的Python解釋器😂。我寫的代碼非常初級、簡單且低效——我是一名專業的播客主持人，對吧？但如果你只是想看看REINFORCE或GRPO的基本原理，這可能會有幫助。下面是gist的鏈接。從根本上說，這並不複雜：每個提示生成多條軌跡。更新你的模型，使其更有可能從成功的軌跡中抽樣所有的標記。