熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我在斯坦福大學 CS 25 的講座 "LLM 推理" 的簡報:
關鍵要點:
1. LLM 中的推理僅僅是指在產生最終答案之前生成一系列中間標記。這是否類似於人類推理並不重要。關鍵的見解是,變壓器模型可以通過生成許多中間標記而變得幾乎無限強大,而無需擴大模型的大小。
2. 預訓練模型,即使沒有任何微調,也能進行推理。挑戰在於,基於推理的輸出通常不會出現在輸出分佈的頂部,因此標準的貪婪解碼無法將它們顯示出來。
3. 提示技術(例如,思路鏈提示或 "讓我們一步一步思考")和監督微調通常用於引發推理。現在,強化學習微調已成為最強大的方法。這一技巧是由幾個實驗室獨立發現的。在谷歌,這一功勞歸功於我團隊的喬納森·賴。根據我們的理論(見第 1 點),擴展強化學習應該專注於生成長響應,而不是其他東西。
4. 通過生成多個響應然後進行聚合,而不是依賴單一響應,可以大幅改善 LLM 推理。
177.29K
熱門
排行
收藏