Então você escolhe a morte
Responder no nível do objeto @TheZvi Tecnicamente, DSA pode ser um salto importante que torna os contextos em escala Gemini trivialmente baratos, mesmo para modelos de gerações anteriores. Advertências: - não temos certeza *se* escala para 1M+ (mas V3.2 exp≥V3.1 apesar do pré-treinamento idêntico, e V3.2>> exp, então é muito provável que sim) - Não sabemos como pode ser treinado sem ser auto-financiado por atenção densa. Talvez a DeepSeek saiba. Acho que a V4 não usa DSA, é explicitamente chamada de protótipo. No pior dos casos, também é sensato pré-treinar com total atenção => estender => sparsify, você assume mais custo em pré-treino para inferência permanentemente mais barata. - KDA do Kimi ou GDN+ do Qwen ou algo assim pode ser até melhor que DSA+/NSA+ Módulo essas ressalvas, isso não é uma redução de preço 2x, estou sendo sarcástico. Mais como 10x. Atenção escassa que não se degrada é algo bem importante. Sobre velocidade, é um ponto vazio do ponto de vista do modelo. A DeepSeek não está interessada em oferecer o melhor produto. Eles servem com grandes lotes de H800s/Ascends. Você pode colocar em hardware americano e conseguir 60-150 t/s, ou em Cerebras e pegar 1000 t/s como GLM, sem aumentar o custo. Essa arquitetura é inerentemente rápida (superficial e barata), só que o DeepSeek a atende lentamente. Sobre a inteligência de fronteira, estou dizendo que essas vantagens de «usemaxing» da fronteira – principalmente a codificação agentica, mas você pode cobrir mais domínios da mesma forma – são produto do gasto computacional em etapas de RL e da iteração em ambientes sintéticos. Eles têm a receita. Eles relatam ≈10% do custo pré-treinamento gasto no Speciale. São ≈ 600 mil dólares. O Grok 4 supostamente usou 100% do Grok 3, ou dezenas de centenas de milhões. Claramente tem sido muito ineficiente com o Grok, mas acho que o DeepSeek poderia chegar a 100% facilmente, a receita é conhecida. Provavelmente não querem desperdiçá-lo em uma base obsoleta, pois observam que ainda está limitado pelo conhecimento. Acho engraçada a atitude despreocupada em relação ao desempenho em matemática de nível meu (ou zero-shot em problemas de Erdos a ponto de o solucionador humano dizer «sim, essa é basicamente minha solução»). Não deveríamos todos esperar AGI de pesquisas matemáticas independentes? Ou será que agora é só programação? Surpreendentemente, essa é a capacidade mais interessante para estimar velocidades de decolagem. Mas enfim, eu acredito em decolagem lenta, o autoaperfeiçoamento vai enfrentar problemas logísticos não importa onde comecemos. A principal contribuição aqui, como já disse, é que eles anunciam a crença de que, fundamentalmente, resolveram o treinamento de LLMs da fronteira do final de 2025 como um programa de pesquisa, e poderiam chegar ao nível ocidental atual ou além dele apenas investindo mais computação (além de pequenos ajustes na eficiência dos tokens). Em teoria, o anúncio deles de investir em treinamentos em maior escala no final pode ser interpretado como «e é isso que estamos fazendo agora». Mas isso ainda está para ser visto.
@TheZvi > apesar do pré-treinamento idêntico e pós-treinamento, correção
3,56K