Minha leitura sobre LMArena é diferente da maioria. A manchete aqui é 30 milhões de dólares ARR em 4 meses. Mas estou mais interessado no modelo de negócio por trás disso. LMArena construiu algo que parece impossível. Uma plataforma de avaliação colaborativa que se tornou a maior alavanca de marketing em IA, e depois descobriu como cobrar os laboratórios usando ela. Deixe-me explicar a matemática. Eles passaram de 600 milhões para 1,7 bilhão em 7 meses. Isso representa um crescimento de avaliação de 183%. Por 30 milhões de dólares ARR, eles estão negociando com 57x a receita. Mas a taxa de corridas cresceu de $0 para $30M em 4 meses. Isso são 7,5 milhões de dólares por mês de NOVA receita em uma categoria que não existia há 18 meses. A verdadeira história é o volante que eles construíram. 35 milhões de usuários aparecem para jogar um jogo. Duas respostas anônimas de IA, escolha sua favorita. Esses usuários geram 60 milhões de conversas por mês. Esses dados se tornam o parâmetro mais confiável do setor. OpenAI, Google, xAI todos precisam de seus modelos nesse ranking. Então eles PAGAM para serem avaliados. É genial porque os clientes também são o produto que está sendo testado. A questão mais difícil é se isso se mantém. Cohere, AI2, Stanford e Waterloo publicaram um artigo de 68 páginas em abril acusando a LMArena de permitir que a Meta testasse variantes de modelos 27 antes do Llama 4, escondendo as piores pontuações. O artigo "Ilusão do Leaderboard" basicamente dizia que o campo de jogo era manipulado para grandes laboratórios. LMArena chamou de impreciso. Mas a situação do Llama 4 foi bagunçada. A Meta ajustou um modelo especificamente para desempenho na Arena, superou o líder e depois lançou outro modelo para o público que teve desempenho pior. É aqui que fica interessante. A Lei de Goodhart diz que, quando uma medida se torna um alvo, ela deixa de ser uma boa medida. LMArena agora é MUITO importante que os laboratórios otimizem especificamente para isso. Respostas mais longas vencem. Pontos principais vencem. A confiança vence mesmo quando errada. A plataforma reconheceu isso. Eles adicionaram pontuação de "controle de estilo" para penalizar o slack de marcação. Claude avançou. GPT-40-mini foi descido. ...