testet 500+ modeller i år og leverer et AI-produkt med +6 000 brukere. Observert: 1. chatten treffer et tak 2. Model Wars forlater eldre modeller 3. åpen kildekode er bedre for byggere 4. evalueringer bør måle oppgaveutførelse 5. kontekst er viktigere enn utvidet resonnement