nueva investigación sobre 445 benchmarks de IA • 48% no están de acuerdo sobre lo que miden • 39% utilizan datos convenientes, no correctos • 16% prueban la significancia estadística todavía no sabemos cómo medir nuestras herramientas más poderosas IMO trata las evaluaciones como deportes, no como el SAT competencia > pruebas reglas claras -> resultados comprensibles para los humanos