Mi opinión sobre LMArena es diferente a la de la mayoría. El titular aquí es 30 millones de dólares en 4 meses. Pero me interesa más el modelo de negocio que hay debajo. LMArena ha construido algo que parece imposible. Una plataforma de evaluación colaborativa que se convirtió en la mayor palanca de marketing en IA, y luego descubrió cómo cargar a los laboratorios con ella. Déjame desglosar las matemáticas. Pasaron de 600 millones a 1.700 millones en 7 meses. Eso es un crecimiento de valoración del 183%. A 30 millones de dólares ARR, cotizan a 57 veces más ingresos. Pero la tarifa creció de 0 a 30 millones en 4 meses. Eso son 7,5 millones de dólares al mes de ingresos NUEVOS en una categoría que no existía hace 18 meses. La verdadera historia es el volante de inercia que construyeron. 35 millones de usuarios acuden para jugar a un juego. Dos respuestas anónimas de IA, elige tu favorita. Esos usuarios generan 60 millones de conversaciones al mes. Esos datos se convierten en el referente más fiable del sector. OpenAI, Google y xAI necesitan sus modelos en esa clasificación. Así que PAGAN para ser evaluados. Es genial porque los clientes también son el producto que se está probando. La pregunta más difícil es si esto se cumple. Cohere, AI2, Stanford y Waterloo publicaron en abril un artículo de 68 páginas acusando a LMArena de permitir que Meta probara variantes del modelo 27 antes de Llama 4, ocultando las peores puntuaciones. El artículo "Ilusión de la Tabla de Clasificación" básicamente decía que el terreno de juego estaba amañado a favor de grandes laboratorios. LMArena lo calificó de inexacto. Pero la situación de Llama 4 fue un lío. Meta ajustó un modelo específicamente para el rendimiento en Arena, superó el líder y luego lanzó otro modelo diferente al público que tuvo peores resultados. Aquí es donde se pone interesante. La Ley de Goodhart dice que cuando una medida se convierte en un objetivo, deja de ser una buena medida. LMArena es ahora TAN importante que los laboratorios optimicen específicamente para ello. Las respuestas más largas ganan. Ganan los puntos clave. La confianza gana incluso cuando se equivoca. La plataforma lo reconoció. Añadieron puntuación de "control de estilo" para penalizar el slop de marcas. Claude avanzó. GPT-4o-mini bajó. ...