DeepSeek 最近发的三篇论文,全部都是带梁文锋署名的,论文讲的内容也很有意思。 尤其是那篇讲 Engram 的,DeepSeek 相当于给模型带了一本“字典”进考场,把死记硬背的脑容量腾出来,专门用来做难题。 但他们发现,如果模型全是记忆(Engram),那就是个死记硬背的书呆子,完全没法思考。 但如果全是推理(MOE),又要浪费大量算力去推导像“中国首都是哪”这种固定知识。 那要带多少记忆去考试呢? DeepSeek 研究出了一个模型“记忆”和“思考”的黄金比例。 最后测出来的最佳配比是:75% 给思考,25% 给记忆。 这个结论可能不仅适合于模型,也值得人类深思。 当一个人记住所有细节,就约等于没有空间思考。 逻辑思维,适当抽象,是人类进步的源泉。 当一个人完全没有知识,只会浪费脑力去思考最基本的东西,脑力空转。 DeepSeek 实测,加了字典减少思考后,模型多出了相当于 7 层网络的思考深度。 没想到,知识的广度以这种方式增加了思考的深度。 很有启发。