A razão pela qual o Cursor e o Windsurf lançaram modelos otimizados para velocidade é porque é muito mais factível do que construir um modelo fundamental de inteligência 1. pegue o qwen3 e ajuste-o via RL em seu arnês 2. coloque-o no hardware Cerebras (ou GPU otimizada) 3. Deixe aquele modelo super-rápido e inteligente cozinhar Para empresas de agentes de codificação, se você deseja trazer algo de valor para o mercado, construir um novo modelo fundamental é muito mais difícil do que ajustar um modelo aberto e otimizar a inferência. francamente, é a maneira eficiente de lançar algo que se aproxima da fronteira de Pareto e eu gosto que as empresas de agentes de codificação estejam começando a participar. Mas não confunda isso com empresas de agentes de codificação declarando "médio inteligente, mas rápido > altamente inteligente, mas lento"