przetestowano 500+ modeli w tym roku, wprowadzając produkt AI z ponad 6 tys. użytkowników. zaobserwowano: 1. czat osiąga sufit 2. wojny modeli deprecjonują starsze modele 3. open source jest lepszy dla twórców 4. oceny powinny mierzyć wykonanie zadań 5. kontekst jest ważniejszy niż ulepszone rozumowanie