Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mi opinión sobre LMArena es diferente a la de la mayoría.
El titular aquí es $30M ARR en 4 meses. Pero estoy más interesado en el modelo de negocio subyacente.
LMArena construyó algo que parece imposible. Una plataforma de evaluación basada en la multitud que se convirtió en la mayor palanca de marketing en IA, y luego descubrió cómo cobrar a los laboratorios que la utilizan.
Déjame desglosar las cifras.
Pasaron de $600M a $1.7B en 7 meses. Eso es un crecimiento del 183% en la valoración. Con $30M ARR, están cotizando a 57x ingresos. Pero la tasa de ejecución creció de $0 a $30M en 4 meses.
Eso son $7.5M por mes de NUEVOS ingresos en una categoría que no existía hace 18 meses.
La verdadera historia es el volante que construyeron.
35M de usuarios se presentan para jugar un juego. Dos respuestas anónimas de IA, elige tu favorita. Esos usuarios generan 60M de conversaciones por mes. Esos datos se convierten en el benchmark más confiable de la industria. OpenAI, Google, xAI necesitan que sus modelos estén en esa tabla de clasificación. Así que PAGAN para ser evaluados.
Es un genio porque los clientes también son el producto que se está probando.
La pregunta más difícil es si esto se mantiene.
Cohere, AI2, Stanford y Waterloo publicaron un documento de 68 páginas en abril acusando a LMArena de permitir que Meta probara 27 variantes de modelos antes de Llama 4 mientras ocultaba las peores puntuaciones. El documento "Ilusión de la Tabla de Clasificación" básicamente decía que el campo de juego estaba amañado a favor de los grandes laboratorios.
LMArena lo llamó inexacto. Pero la situación de Llama 4 fue complicada. Meta ajustó un modelo específicamente para el rendimiento en Arena, encabezó la tabla de clasificación y luego lanzó un modelo diferente al público que tuvo un rendimiento peor.
Aquí es donde se pone interesante.
La Ley de Goodhart dice que cuando una medida se convierte en un objetivo, deja de ser una buena medida. LMArena es ahora TAN importante que los laboratorios se optimizan específicamente para ello. Las respuestas más largas ganan. Los puntos de viñeta ganan. La confianza gana incluso cuando está equivocada.
La plataforma reconoció esto. Agregaron puntuaciones de "control de estilo" para penalizar la falta de markdown. Claude subió. GPT-4o-mini bajó.
...
Parte superior
Clasificación
Favoritos
