一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

DeepSeek 最近发的三篇论文，全部都是带梁文锋署名的，论文讲的内容也很有意思。尤其是那篇讲 Engram 的，DeepSeek 相当于给模型带了一本“字典”进考场，把死记硬背的脑容量腾出来，专门用来做难题。但他们发现，如果模型全是记忆（Engram），那就是个死记硬背的书呆子，完全没法思考。但如果全是推理（MOE），又要浪费大量算力去推导像“中国首都是哪”这种固定知识。那要带多少记忆去考试呢？ DeepSeek 研究出了一个模型“记忆”和“思考”的黄金比例。最后测出来的最佳配比是：75% 给思考，25% 给记忆。这个结论可能不仅适合于模型，也值得人类深思。当一个人记住所有细节，就约等于没有空间思考。逻辑思维，适当抽象，是人类进步的源泉。当一个人完全没有知识，只会浪费脑力去思考最基本的东西，脑力空转。 DeepSeek 实测，加了字典减少思考后，模型多出了相当于 7 层网络的思考深度。没想到，知识的广度以这种方式增加了思考的深度。很有启发。