對我來說,最有趣的部分是 @karpathy 描述了為什麼 LLM 無法像人類一樣學習。 正如你所期望的,他提出了一個非常生動的短語來描述強化學習: “通過吸管吸取監督位元。” 單一的最終獎勵會在成功的軌跡中廣播到每個標記上,甚至會加權那些導致正確答案的錯誤或不相關的轉折。 > “人類不使用強化學習,正如我之前所說的。我認為他們做的是不同的事情。強化學習比一般人想的要糟糕得多。強化學習是可怕的。恰好的是,我們之前擁有的一切都要糟糕得多。” 那麼人類到底做了什麼呢? > “我正在閱讀的書是我進行合成數據生成的一組提示。正是通過操縱這些信息,你實際上獲得了知識。我們在 LLM 中沒有這樣的等價物;它們並不真正這樣做。” > “我希望在預訓練期間能有某種階段,讓模型思考材料並試圖將其與已知的內容調和。這些都沒有等價物。這都是研究。” 為什麼我們今天不能簡單地將這種訓練添加到 LLM 中呢? > “有一些非常微妙、難以理解的原因,為什麼這並不簡單。如果我只是給模型提供合成生成的書籍思考,你看著它會覺得,‘這看起來很棒。為什麼我不能在上面訓練?’你可以嘗試,但如果你繼續嘗試,模型實際上會變得更糟。” > “假設我們有一本書的一章,我請 LLM 思考它。它會給你一些看起來非常合理的東西。但如果我問它 10 次,你會注意到它們都是一樣的。” > “你從這些模型中獲得的豐富性、多樣性和熵,並不像你從人類那裡獲得的那樣。你如何在崩潰的情況下使合成數據生成工作,同時保持熵?這是一個研究問題。” 人類如何克服模型崩潰? > “這些類比出奇地好。人類在生活過程中會崩潰。孩子們還沒有過擬合。他們會說一些讓你震驚的話。因為他們還沒有崩潰。但我們 [成年人] 已經崩潰了。我們最終會重複相同的想法,會越來越多地說相同的東西,學習速率下降,崩潰會變得更糟,然後一切都會惡化。” 事實上,有一篇有趣的論文認為,做夢是為了幫助泛化,並抵抗對日常學習的過擬合 - 查找 @erikphoel 的《過擬合的大腦》。 我問 Karpathy:人類在生活的某個階段(童年)學習得最好,卻完全忘記了具體細節,成年人仍然學習得很好,但對他們閱讀或觀看的事物的具體內容記憶卻很糟糕,而 LLM 可以記住人類無法記住的任意細節,但目前在泛化方面卻相當糟糕,這不是很有趣嗎? ...