Mielestäni SWE-penkki ja T-penkki ovat niitä harvoja vertailukohtia, joilla on hyvä signaali siitä, kuinka paljon edistymme mallien kanssa. Tämä malli toimii yhtä hyvin kuin Qwen3 Coder ja on vain 10 % huonompi kuin GPT-5, mutta se on myös yleiskäyttöinen LLM koodiin erikoistuneen sijaan.