Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sí, para mí ni siquiera veo qué hacen para ganar dinero, parece que hicieron un benchmark que se hizo popular y ahora es pay to win, no veo otra razón por la que puedan conseguir tantos ingresos por esto, pero no tengo los detalles de por qué les pagan los clientes.
Empezó como una forma de probar modelos abiertos con vibra, pero nuestro último intento de entrar allí fue ignorado y retrasado durante meses, mientras Meta probaba cientos de modelos para optimizar específicamente para maximizar las evaluaciones, y después de eso dejamos de enviar. Hace mucho tiempo dejé de creer que Marena era una métrica útil y he oído en privado de grandes Kansas que odian esa máquina, que está llevando sus modelos a una calidad inferior para superarla. Así que, no sé, eso es todo

7 ene, 08:47
Mi opinión sobre LMArena es diferente a la de la mayoría.
El titular aquí es 30 millones de dólares en 4 meses. Pero me interesa más el modelo de negocio que hay debajo.
LMArena ha construido algo que parece imposible. Una plataforma de evaluación colaborativa que se convirtió en la mayor palanca de marketing en IA, y luego descubrió cómo cargar a los laboratorios con ella.
Déjame desglosar las matemáticas.
Pasaron de 600 millones a 1.700 millones en 7 meses. Eso es un crecimiento de valoración del 183%. A 30 millones de dólares ARR, cotizan a 57 veces más ingresos. Pero la tarifa creció de 0 a 30 millones en 4 meses.
Eso son 7,5 millones de dólares al mes de ingresos NUEVOS en una categoría que no existía hace 18 meses.
La verdadera historia es el volante de inercia que construyeron.
35 millones de usuarios acuden para jugar a un juego. Dos respuestas anónimas de IA, elige tu favorita. Esos usuarios generan 60 millones de conversaciones al mes. Esos datos se convierten en el referente más fiable del sector. OpenAI, Google y xAI necesitan sus modelos en esa clasificación. Así que PAGAN para ser evaluados.
Es genial porque los clientes también son el producto que se está probando.
La pregunta más difícil es si esto se cumple.
Cohere, AI2, Stanford y Waterloo publicaron en abril un artículo de 68 páginas acusando a LMArena de permitir que Meta probara variantes del modelo 27 antes de Llama 4, ocultando las peores puntuaciones. El artículo "Ilusión de la Tabla de Clasificación" básicamente decía que el terreno de juego estaba amañado a favor de grandes laboratorios.
LMArena lo calificó de inexacto. Pero la situación de Llama 4 fue un lío. Meta ajustó un modelo específicamente para el rendimiento en Arena, superó el líder y luego lanzó otro modelo diferente al público que tuvo peores resultados.
Aquí es donde se pone interesante.
La Ley de Goodhart dice que cuando una medida se convierte en un objetivo, deja de ser una buena medida. LMArena es ahora TAN importante que los laboratorios optimicen específicamente para ello. Las respuestas más largas ganan. Ganan los puntos clave. La confianza gana incluso cuando se equivoca.
La plataforma lo reconoció. Añadieron puntuación de "control de estilo" para penalizar el slop de marcas. Claude avanzó. GPT-4o-mini bajó.
Pero la tensión central permanece.
LMArena gana 30 millones de dólares al año de los mismos laboratorios que evalua. OpenAI, Google y xAI son clientes. El árbitro cobra por los jugadores.
Dicen que la clasificación pública es "una organización benéfica" y que no puedes pagar por la colocación. Les creo. Pero la estructura de incentivos es... complicado.
La valoración dice que el mercado cree que puede encontrar el equilibrio entre el éxito comercial y la neutralidad percibida.
La incorporación de Peter Deng al consejo es interesante. Exvicepresidente de Producto de Consumo en OpenAI. Ahora GP en Felicis lidera esta ronda. Sabe perfectamente lo valioso que es el puesto en la arena para el marketing de modelos.
Ion Stoica, como cofundador, es el ancla de credibilidad. Profesor de Berkeley, creado por Spark y Ray, dirige el Sky Computing Lab. Esto no es una startup aleatoria. Es una infraestructura construida por investigadores que entienden sistemas distribuidos.
250 millones de dólares recaudados en 7 meses. Equipo de 40+. 5 millones de usuarios mensuales en 150 países.
La evaluación acaba de convertirse en una categoría de mil millones de dólares.
De Big Labs, no de Big Kansas, ja, creo que alguien debería entrenar estos autocorrectores en muchos más tokens...
31
Populares
Ranking
Favoritas
