熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
DeepSeek 最近發的三篇論文,全部都是帶梁文鋒署名的,論文講的內容也很有意思。
尤其是那篇講 Engram 的,DeepSeek 相當於給模型帶了一本“字典”進考場,把死記硬背的腦容量騰出來,專門用來做難題。
但他們發現,如果模型全是記憶(Engram),那就是個死記硬背的書呆子,完全沒法思考。
但如果全是推理(MOE),又要浪費大量算力去推導像“中國首都是哪”這種固定知識。
那要帶多少記憶去考試呢?
DeepSeek 研究出了一個模型“記憶”和“思考”的黃金比例。
最後測出來的最佳配比是:75% 給思考,25% 給記憶。
這個結論可能不僅適合於模型,也值得人類深思。
當一個人記住所有細節,就約等於沒有空間思考。
邏輯思維,適當抽象,是人類進步的源泉。
當一個人完全沒有知識,只會浪費腦力去思考最基本的東西,腦力空轉。
DeepSeek 實測,加了字典減少思考後,模型多出了相當於 7 層網絡的思考深度。
沒想到,知識的廣度以這種方式增加了思考的深度。
很有啟發。
熱門
排行
收藏
