Cách nhìn của tôi về LMArena khác với hầu hết mọi người. Tiêu đề ở đây là 30 triệu đô la ARR trong 4 tháng. Nhưng tôi quan tâm hơn đến mô hình kinh doanh bên dưới. LMArena đã xây dựng một cái gì đó cảm thấy không thể. Một nền tảng đánh giá crowdsourced đã trở thành đòn bẩy marketing lớn nhất trong AI, sau đó tìm ra cách tính phí cho các phòng thí nghiệm sử dụng nó. Hãy để tôi phân tích toán học. Họ đã tăng từ 600 triệu đô la lên 1,7 tỷ đô la trong 7 tháng. Đó là mức tăng trưởng định giá 183%. Với 30 triệu đô la ARR, họ đang giao dịch ở mức 57 lần doanh thu. Nhưng tỷ lệ tăng trưởng đã từ 0 lên 30 triệu đô la trong 4 tháng. Đó là 7,5 triệu đô la doanh thu MỚI mỗi tháng trong một danh mục chưa tồn tại 18 tháng trước. Câu chuyện thực sự là vòng quay mà họ đã xây dựng. 35 triệu người dùng tham gia chơi một trò chơi. Hai phản hồi AI ẩn danh, chọn cái bạn thích nhất. Những người dùng đó tạo ra 60 triệu cuộc trò chuyện mỗi tháng. Dữ liệu đó trở thành tiêu chuẩn đáng tin cậy nhất trong ngành. OpenAI, Google, xAI đều cần mô hình của họ có mặt trong bảng xếp hạng đó. Vì vậy, họ TRẢ TIỀN để được đánh giá. Đó là sự thiên tài vì khách hàng cũng là sản phẩm đang được thử nghiệm. Câu hỏi khó hơn là liệu điều này có giữ vững được không. Cohere, AI2, Stanford và Waterloo đã phát hành một tài liệu 68 trang vào tháng 4 cáo buộc LMArena cho phép Meta thử nghiệm 27 biến thể mô hình trước Llama 4 trong khi che giấu những điểm số tệ nhất. Tài liệu "Illusion Leaderboard" cơ bản nói rằng sân chơi đã bị gian lận về phía các phòng thí nghiệm lớn. LMArena đã gọi đó là không chính xác. Nhưng tình huống Llama 4 thì rắc rối. Meta đã điều chỉnh một mô hình cụ thể cho hiệu suất Arena, đứng đầu bảng xếp hạng, sau đó phát hành một mô hình khác cho công chúng mà hoạt động kém hơn. Đây là nơi mọi thứ trở nên thú vị. Luật Goodhart nói rằng khi một thước đo trở thành mục tiêu, nó không còn là một thước đo tốt nữa. LMArena bây giờ QUAN TRỌNG đến mức các phòng thí nghiệm tối ưu hóa cụ thể cho nó. Phản hồi dài hơn thắng. Các điểm bullet thắng. Sự tự tin thắng ngay cả khi sai. Nền tảng đã thừa nhận điều này. Họ đã thêm điểm "kiểm soát phong cách" để phạt những lỗi markdown. Claude đã tăng lên. GPT-4o-mini đã giảm xuống. ...