Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Então você escolhe a morte

Responder no nível do objeto @TheZvi
Tecnicamente, DSA pode ser um salto importante que torna os contextos em escala Gemini trivialmente baratos, mesmo para modelos de gerações anteriores. Advertências:
- não temos certeza *se* escala para 1M+ (mas V3.2 exp≥V3.1 apesar do pré-treinamento idêntico, e V3.2>> exp, então é muito provável que sim)
- Não sabemos como pode ser treinado sem ser auto-financiado por atenção densa. Talvez a DeepSeek saiba. Acho que a V4 não usa DSA, é explicitamente chamada de protótipo. No pior dos casos, também é sensato pré-treinar com total atenção => estender => sparsify, você assume mais custo em pré-treino para inferência permanentemente mais barata.
- KDA do Kimi ou GDN+ do Qwen ou algo assim pode ser até melhor que DSA+/NSA+
Módulo essas ressalvas, isso não é uma redução de preço 2x, estou sendo sarcástico. Mais como 10x. Atenção escassa que não se degrada é algo bem importante.
Sobre velocidade, é um ponto vazio do ponto de vista do modelo. A DeepSeek não está interessada em oferecer o melhor produto. Eles servem com grandes lotes de H800s/Ascends. Você pode colocar em hardware americano e conseguir 60-150 t/s, ou em Cerebras e pegar 1000 t/s como GLM, sem aumentar o custo. Essa arquitetura é inerentemente rápida (superficial e barata), só que o DeepSeek a atende lentamente.
Sobre a inteligência de fronteira, estou dizendo que essas vantagens de «usemaxing» da fronteira – principalmente a codificação agentica, mas você pode cobrir mais domínios da mesma forma – são produto do gasto computacional em etapas de RL e da iteração em ambientes sintéticos. Eles têm a receita. Eles relatam ≈10% do custo pré-treinamento gasto no Speciale. São ≈ 600 mil dólares. O Grok 4 supostamente usou 100% do Grok 3, ou dezenas de centenas de milhões. Claramente tem sido muito ineficiente com o Grok, mas acho que o DeepSeek poderia chegar a 100% facilmente, a receita é conhecida. Provavelmente não querem desperdiçá-lo em uma base obsoleta, pois observam que ainda está limitado pelo conhecimento.
Acho engraçada a atitude despreocupada em relação ao desempenho em matemática de nível meu (ou zero-shot em problemas de Erdos a ponto de o solucionador humano dizer «sim, essa é basicamente minha solução»). Não deveríamos todos esperar AGI de pesquisas matemáticas independentes? Ou será que agora é só programação? Surpreendentemente, essa é a capacidade mais interessante para estimar velocidades de decolagem. Mas enfim, eu acredito em decolagem lenta, o autoaperfeiçoamento vai enfrentar problemas logísticos não importa onde comecemos.
A principal contribuição aqui, como já disse, é que eles anunciam a crença de que, fundamentalmente, resolveram o treinamento de LLMs da fronteira do final de 2025 como um programa de pesquisa, e poderiam chegar ao nível ocidental atual ou além dele apenas investindo mais computação (além de pequenos ajustes na eficiência dos tokens). Em teoria, o anúncio deles de investir em treinamentos em maior escala no final pode ser interpretado como «e é isso que estamos fazendo agora». Mas isso ainda está para ser visto.
@TheZvi > apesar do pré-treinamento idêntico
e pós-treinamento, correção
3,56K
Melhores
Classificação
Favoritos

