testati oltre 500 modelli quest'anno spedendo un prodotto AI con più di 6k utenti. osservato: 1. la chat sta raggiungendo un limite 2. le guerre tra modelli deprecano i modelli più vecchi 3. l'open source è migliore per i costruttori 4. le valutazioni dovrebbero misurare l'esecuzione dei compiti 5. il contesto è più importante del ragionamento avanzato