O que é exatamente o modelo "barato e grande"? Tática de recuo. A boa notícia para a implementação local de grandes modelos chegou! Trago a vocês a análise técnica do Kimi-Linear-48B-A3B, que foi recém-lançado pela "Lado Oculto da Lua"! Vamos começar com uma versão em uma frase — este é o verdadeiro modelo de fast food "barato e grande". O 48B-A3B alcançou 1M de contexto, e ainda por cima utiliza atenção linear, o que economiza muita memória. O consumo de memória do comprimento do contexto com atenção tradicional cresce de forma exponencial, enquanto este é linear, então este modelo funciona bem até em CPU. Já estou fazendo o download e me preparando para adicioná-lo aos meus modelos locais. Atualmente, a maior incerteza é não saber qual é o nível de recuperação, então estou planejando baixar e testar com alguns romances para ver como o modelo responde aos detalhes das histórias e avaliar a eficácia da recuperação. Para aqueles que querem ver os resultados, por favor, deixem um like; se ultrapassarmos 100, liberarei a avaliação no fim de semana.