de reden dat cursor en windsurf modellen hebben uitgebracht die geoptimaliseerd zijn voor snelheid, is omdat het veel haalbaarder is dan het bouwen van een intelligentie-ondersteunend fundamenteel model 1. neem qwen3 en verfijn het via RL op je harnas 2. zet het op Cerebras (of geoptimaliseerde GPU) hardware 3. laat dat medium-slimme, super-snelle model koken voor bedrijven die coding agents ontwikkelen, als je iets waardevols op de markt wilt brengen, is het bouwen van een nieuw fundamenteel model vele malen moeilijker dan het verfijnen van een open model en het optimaliseren van inferentie. eerlijk gezegd is het de efficiënte manier om iets uit te brengen dat de pareto-grens benadert en ik vind het leuk dat bedrijven die coding agents ontwikkelen beginnen deel te nemen. maar vergis je niet, dit is geen verklaring van coding agents bedrijven dat "medium slim maar snel > hoog intelligent maar langzaam"