热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
DeepSeek 最近发的三篇论文,全部都是带梁文锋署名的,论文讲的内容也很有意思。
尤其是那篇讲 Engram 的,DeepSeek 相当于给模型带了一本“字典”进考场,把死记硬背的脑容量腾出来,专门用来做难题。
但他们发现,如果模型全是记忆(Engram),那就是个死记硬背的书呆子,完全没法思考。
但如果全是推理(MOE),又要浪费大量算力去推导像“中国首都是哪”这种固定知识。
那要带多少记忆去考试呢?
DeepSeek 研究出了一个模型“记忆”和“思考”的黄金比例。
最后测出来的最佳配比是:75% 给思考,25% 给记忆。
这个结论可能不仅适合于模型,也值得人类深思。
当一个人记住所有细节,就约等于没有空间思考。
逻辑思维,适当抽象,是人类进步的源泉。
当一个人完全没有知识,只会浪费脑力去思考最基本的东西,脑力空转。
DeepSeek 实测,加了字典减少思考后,模型多出了相当于 7 层网络的思考深度。
没想到,知识的广度以这种方式增加了思考的深度。
很有启发。
热门
排行
收藏
