Sim, quero dizer, para mim, nem sequer vejo o que eles fazem para ganhar dinheiro, parece que criaram um benchmark que se tornou popular e agora é pay to win, não vejo outra razão pela qual eles conseguiriam comandar tanto receita por isso, mas não tenho detalhes sobre o que os clientes estão pagando a eles. Começou como uma forma de testar vibrações de modelos abertos, mas a nossa última tentativa de entrar lá foi ignorada e atrasada por meses, enquanto a meta estava testando centenas de modelos para otimizar especificamente em torno de maximizar as avaliações, e depois disso simplesmente paramos de submeter. Desisti de acreditar que lmarena era uma métrica útil há muito tempo e ouvi em privado de grandes Kansas que eles odeiam aquilo, que está levando seus modelos a uma qualidade inferior para superá-lo. Então, não sei, é tudo.
Aakash Gupta
Aakash Gupta7/01, 08:47
A minha leitura sobre a LMArena é diferente da maioria. A manchete aqui é $30M ARR em 4 meses. Mas estou mais interessado no modelo de negócio por trás. A LMArena construiu algo que parece impossível. Uma plataforma de avaliação crowdsourced que se tornou a maior alavanca de marketing em IA, e depois descobriu como cobrar os laboratórios que a utilizam. Deixe-me explicar os números. Eles passaram de $600M para $1.7B em 7 meses. Isso é um crescimento de 183% na avaliação. Com $30M ARR, estão a negociar a 57x receita. Mas a taxa de execução cresceu de $0 para $30M em 4 meses. Isso é $7.5M por mês de NOVA receita numa categoria que não existia há 18 meses. A verdadeira história é o ciclo que eles construíram. 35M de usuários aparecem para jogar um jogo. Duas respostas anônimas de IA, escolha a sua favorita. Esses usuários geram 60M de conversas por mês. Esses dados tornam-se o benchmark mais confiável da indústria. OpenAI, Google, xAI precisam que seus modelos estejam nesse ranking. Portanto, eles PAGAM para serem avaliados. É genial porque os clientes também são o produto que está a ser testado. A pergunta mais difícil é se isso se mantém. Cohere, AI2, Stanford e Waterloo lançaram um artigo de 68 páginas em abril acusando a LMArena de permitir que a Meta testasse 27 variantes de modelo antes do Llama 4, enquanto escondia as piores pontuações. O artigo "Ilusão do Ranking" basicamente disse que o campo de jogo estava manipulado a favor dos grandes laboratórios. A LMArena chamou isso de impreciso. Mas a situação do Llama 4 foi confusa. A Meta ajustou um modelo especificamente para o desempenho na Arena, liderou o ranking, e depois lançou um modelo diferente ao público que teve um desempenho pior. Aqui é onde fica interessante. A Lei de Goodhart diz que quando uma medida se torna um alvo, deixa de ser uma boa medida. A LMArena é agora TÃO importante que os laboratórios otimizam especificamente para isso. Respostas mais longas ganham. Pontos em lista ganham. Confiança ganha mesmo quando errada. A plataforma reconheceu isso. Eles adicionaram uma pontuação de "controle de estilo" para penalizar a má formatação. Claude subiu. GPT-4o-mini desceu. Mas a tensão central permanece. A LMArena ganha mais de $30M por ano dos mesmos laboratórios que julga. OpenAI, Google, xAI são clientes. O árbitro está a ser pago pelos jogadores. Eles dizem que o ranking público é "uma caridade" e que não se pode pagar por colocação. Eu acredito neles. Mas a estrutura de incentivos é... complicada. A avaliação diz que o mercado pensa que eles podem equilibrar o sucesso comercial e a neutralidade percebida. A entrada de Peter Deng no conselho é interessante. Antigo VP de Produto de Consumo na OpenAI. Agora GP na Felicis liderando esta rodada. Ele sabe exatamente quão valiosa é a colocação na Arena para o marketing de modelos. Ion Stoica como cofundador é o âncora de credibilidade. Professor em Berkeley, criou o Spark e o Ray, dirige o Sky Computing Lab. Esta não é uma startup aleatória. É uma infraestrutura construída por pesquisadores que entendem sistemas distribuídos. $250M arrecadados em 7 meses. Equipa de mais de 40. 5M de usuários mensais em 150 países. A avaliação acabou de se tornar uma categoria de bilhões de dólares.
De grandes laboratórios, não de grandes Kansas, lmao, acho que alguém precisa treinar esses autocorrects com muitos mais tokens…
2