熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
想要更好地理解強化學習在大型語言模型上的運作。
所以我寫了一個簡單的腳本來教Nanochat加五位數的數字。
我對它學習的速度感到驚訝。
直到我查看模型的生成結果,才意識到它只是學會了總是調用內建的Python解釋器😂。
我寫的代碼非常初級、簡單且低效——我是一名專業的播客主持人,對吧?
但如果你只是想看看REINFORCE或GRPO的基本原理,這可能會有幫助。下面是gist的鏈接。
從根本上說,這並不複雜:每個提示生成多條軌跡。更新你的模型,使其更有可能從成功的軌跡中抽樣所有的標記。

熱門
排行
收藏