testé plus de 500 modèles cette année en expédiant un produit AI avec plus de 6k utilisateurs. observé : 1. le chat atteint un plafond 2. les guerres de modèles déprécient les anciens modèles 3. l'open source est meilleur pour les créateurs 4. les évaluations devraient mesurer l'exécution des tâches 5. le contexte est plus important que le raisonnement amélioré