De tre senaste pappren som publicerats av DeepSeek är alla undertecknade av Liang Wenfeng, och innehållet i pappren är också mycket intressant. Särskilt i artikeln om Engram är DeepSeek likvärdigt med att ta med en "ordbok" till modellen i undersökningsrummet, vilket frigör mekanisk hjärnkapacitet för svåra problem. Men de upptäckte att om modellen handlade helt om minne (Engram), var det en mekanisk nörd som inte kunde tänka alls. Men om allt handlar om inferens (MOE), slösas mycket datorkraft bort på att härleda fast kunskap som "var är Kinas huvudstad". Hur många minnen måste du ta med till provet? DeepSeek har utvecklat en modell för det gyllene snittet mellan "minne" och "tänkande". Den bästa kvoten som mättes till slut var: 75 % för tänkande och 25 % för minne. Denna slutsats kan inte bara passa modellen, utan också vara värd att fundera över. När en person minns alla detaljer är det likvärdigt med att inte ha något utrymme att tänka. Logiskt tänkande, lämpligt abstrakt, är källan till mänsklig utveckling. När en person inte har någon kunskap alls, slösar han bara sin hjärnenergi på att tänka på de mest grundläggande sakerna, och hjärnan går sysslolös. DeepSeek mätte att efter att ha lagt till en ordbok för att minska tänkandet har modellen ett ytterligare tänkande djup motsvarande ett 7-lagers nätverk. Oväntat ökar kunskapens bredd tankedjupet på detta sätt. Mycket inspirerande.