熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
知名播客博主 Dwarkesh Patel 最近對 AK 有過一次訪談,這是他的描述:
對我來說,最有意思的部分,是 Andrej Karpathy(常被粉絲稱為“卡神”的AI大牛)解釋為什麼大語言模型(LLM)沒法像人一樣學習。
果不其然,卡神又造出了一個特別生動的詞兒來形容強化學習(Reinforcement Learning, 簡稱RL):“用吸管吸取監督數據”。
這話啥意思呢?就是說,在一次成功的嘗試裡,(比如AI下棋贏了),這個“贏了”的最終獎勵,會平攤到它走過的每一步、生成的每個詞上。哪怕中間有些步驟是錯的、或是無關緊要的,只要最後結果是對的,這些步驟也統統會被算法“加分”。
> “我以前就說過,人類不使用強化學習。我認為人類的學習方式完全不同。強化學習比普通人想的要糟糕得多。強化學習很爛。只不過,我們以前有的其他算法比它還要爛得多罷了。”
那麼,人類到底是怎麼學習的呢?
> “我讀一本書,這本書對我來說就是一套‘提示詞’(prompts),好讓我在腦子裏‘合成數據’(synthetic data generation)。你必須通過主動地處理這些信息,才能真正獲得知識。但大語言模型(LLM)沒有對應的機制;它們真的不會這麼幹。”
> “我很希望在模型的預訓練(pretraining)階段看到這麼一個環節:模型能‘琢磨’一下它讀到的材料,並試著把它和自己已經知道的知識‘對上號’(也就是融會貫通)。現在根本沒有這種機制。這都還停留在研究階段。”
那我們為什麼不能現在就把這種“思考”訓練加到大語言模型裡呢?
> “這裡面有非常微妙、難以理解的原因,導致這事兒沒那麼簡單。如果我讓模型對一本書進行‘思考’,並生成一些合成數據,你乍一看會覺得:‘這看起來很棒啊!為什麼不能用它來訓練呢?’ 你是可以試試,但如果你堅持這麼做,模型的性能實際上會變得更糟。”
> “比方說,我們拿一本書的某一章,我讓一個大語言模型來‘思考’一下。它會給你一段看起來非常合理的回答。但如果我讓它回答 10 次,你會發現,這 10 次的回答幾乎一模一樣。”
> “你從這些模型裡,得不到人類思考時那種豐富性、多樣性和‘熵’(在這裡指思考的混亂度和創造性)。你無法像人一樣得到各種天馬行空的想法。所以,如何在模型趨向於‘坍塌’(collapse)(指回答變得單一、缺乏多樣性)的情況下,還能讓合成數據起作用,並且保持住這份‘熵’?這還是個研究難題。”
那麼,人類是如何避免這種“思維坍塌”的呢?
> “(把人和模型類比)這個點子好得出奇。人類在自己的一生中,其實也會‘坍塌’。小孩子還沒有‘過擬合’(overfitting)(指思維僵化,只適應特定模式)。他們會說出一些讓你震驚的話。那是因為他們還沒‘坍塌’。但我們成年人已經‘坍塌’了。我們最終會反覆琢磨同樣的想法,我們說的話也越來越趨同,我們的學習率下降,‘坍塌’的情況越來越糟,最後一切都退化了。”
事實上,有篇很有意思的論文(Erik Hoel 的《過擬合的大腦》(The Overfitted Brain))就提出,人類做夢這個功能的進化,就是為了幫助我們提升‘泛化能力’(generalization)(指舉一反三的能力),抵抗日常學習帶來的‘過擬合’。
...
熱門
排行
收藏