一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

DeepSeek 最近發的三篇論文，全部都是帶梁文鋒署名的，論文講的內容也很有意思。尤其是那篇講 Engram 的，DeepSeek 相當於給模型帶了一本“字典”進考場，把死記硬背的腦容量騰出來，專門用來做難題。但他們發現，如果模型全是記憶（Engram），那就是個死記硬背的書呆子，完全沒法思考。但如果全是推理（MOE），又要浪費大量算力去推導像“中國首都是哪”這種固定知識。那要帶多少記憶去考試呢？ DeepSeek 研究出了一個模型“記憶”和“思考”的黃金比例。最後測出來的最佳配比是：75% 給思考，25% 給記憶。這個結論可能不僅適合於模型，也值得人類深思。當一個人記住所有細節，就約等於沒有空間思考。邏輯思維，適當抽象，是人類進步的源泉。當一個人完全沒有知識，只會浪費腦力去思考最基本的東西，腦力空轉。 DeepSeek 實測，加了字典減少思考後，模型多出了相當於 7 層網絡的思考深度。沒想到，知識的廣度以這種方式增加了思考的深度。很有啟發。