DeepSeek 最近發的三篇論文,全部都是帶梁文鋒署名的,論文講的內容也很有意思。 尤其是那篇講 Engram 的,DeepSeek 相當於給模型帶了一本“字典”進考場,把死記硬背的腦容量騰出來,專門用來做難題。 但他們發現,如果模型全是記憶(Engram),那就是個死記硬背的書呆子,完全沒法思考。 但如果全是推理(MOE),又要浪費大量算力去推導像“中國首都是哪”這種固定知識。 那要帶多少記憶去考試呢? DeepSeek 研究出了一個模型“記憶”和“思考”的黃金比例。 最後測出來的最佳配比是:75% 給思考,25% 給記憶。 這個結論可能不僅適合於模型,也值得人類深思。 當一個人記住所有細節,就約等於沒有空間思考。 邏輯思維,適當抽象,是人類進步的源泉。 當一個人完全沒有知識,只會浪費腦力去思考最基本的東西,腦力空轉。 DeepSeek 實測,加了字典減少思考後,模型多出了相當於 7 層網絡的思考深度。 沒想到,知識的廣度以這種方式增加了思考的深度。 很有啟發。