المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
نعم، بالنسبة لي لا أرى حتى ما الذي يفعلونه لكسب المال، أشعر أنهم صنعوا معيارا شائعا أصبح شائعا والآن أصبح الدفع للفوز، لا أرى سببا آخر لهم حتى الحصول على هذا القدر من الإيرادات لكن ليس لدي تفاصيل عن ما يدفعه العملاء لهم على الإطلاق.
بدأ الأمر كطريقة لاختبار النماذج المفتوحة لكن محاولتنا الأخيرة للدخول تم تجاهلها وتأخرها لأشهر، بينما كانت الميتا تختبر مئات النماذج لتحسين التقييمات بشكل خاص، وبعد ذلك توقفنا عن التقديم. توقفت عن الاعتقاد ب LMARENA كمقياس مفيد منذ زمن بعيد، وسمعت بشكل خاص من شركات كانساس الكبرى أنهم يكرهون هذا الجهاز، وأنه يدفع نماذجهم إلى جودة أقل لتتفوق عليه. لا أدري، هذا كل شيء

7 يناير، 08:47
قراءتي ل LMArena مختلفة عن معظم الناس.
العنوان هنا هو 30 مليون دولار ARR خلال 4 أشهر. لكنني مهتم أكثر بنموذج العمل الذي تحته.
LMArena بنت شيئا يبدو مستحيلا. منصة تقييم جماعية أصبحت أكبر رافعة تسويقية في الذكاء الاصطناعي، ثم اكتشفت كيفية تحميل المختبرات التي تستخدمها.
دعوني أوضح الحسابات.
انتقلوا من 600 مليون دولار إلى 1.7 مليار دولار خلال 7 أشهر. هذا يعني نمو تقييم بنسبة 183٪. بسعر 30 مليون دولار ARR، يتداولون بإيرادات 57 مرة. لكن معدل التشغيل ارتفع من 0 دولار إلى 30 مليون دولار خلال 4 أشهر.
هذا يعني 7.5 مليون دولار شهريا من الإيرادات الجديدة في فئة لم تكن موجودة قبل 18 شهرا.
القصة الحقيقية هي دولاب الموازنة الذي صنعوه.
35 مليون مستخدم يحضرون للعب لعبة. ردان مجهولان الذكاء الاصطناعي المجهولين، اختر المفضل لديك. هؤلاء المستخدمون يولدون 60 مليون محادثة شهريا. تصبح هذه البيانات المعيار الأكثر ثقة في الصناعة. OpenAI وGoogle وxAI جميعهم بحاجة إلى نماذجهم في لوحة المتصدرين. لذا هم يدفعون مقابل التقييم.
إنه عبقري لأن العملاء هم أيضا المنتج الذي يتم اختباره.
السؤال الأصعب هو ما إذا كان هذا سيصمد.
أصدرت كوهير، AI2، ستانفورد، ووترلو ورقة بحثية من 68 صفحة في أبريل تتهم LMArena بالسماح لMeta باختبار 27 نسخة من الطراز قبل Llama 4 مع إخفاء أسوأ النتائج. ورقة "وهم لوحة المتصدرين" قالت بشكل أساسي إن الميدان موجه لصالح مختبرات كبيرة.
LMArena وصفته بأنه غير دقيق. لكن وضع لاما 4 كان فوضويا. قامت ميتا بضبط نموذج مخصص لأداء الساحة، وتفوق على قائد القائد، ثم أصدرت نموذجا مختلفا للجمهور كان أداؤه أسوأ.
هنا تبدأ الأمور في الشعور بالجاذبية.
يقول قانون جودهارت إنه عندما يصبح إجراء هدفا، فإنه يتوقف عن كونه مقياسا جيدا. LMArena أصبحت الآن مهمة جدا لدرجة أن المختبرات تقوم بتحسين مهاراتها خصيصا لها. الردود الأطول هي الفائزة. النقاط النقطية هي الفائزة. الثقة تنتصر حتى عندما تكون خاطئة.
وقد أقرت المنصة بذلك. أضافوا "التحكم في الأسلوب" للتسجيل لمعاقبة الأخطاء العشوائية. تقدم كلود. انزل GPT-4o-mini.
لكن التوتر الأساسي لا يزال قائما.
LMArena تكسب 30 مليون دولار+ سنويا من نفس المختبرات التي تحكيمها. OpenAI، Google، xAI هم عملاء. الحكم يتقاضى أجرا من اللاعبين.
يقولون إن لوحة المتصدرين العامة هي "جمعية خيرية" ولا يمكنك دفع تكاليف التدريب. أنا أصدقهم. لكن هيكل الحوافز هو... معقدة.
يقول التقييم إن السوق يعتقد أنه يستطيع التوازن بين النجاح التجاري والحياد المتصور.
انضمام بيتر دينغ إلى المجلس أمر مثير للاهتمام. نائب رئيس سابق للمنتجات الاستهلاكية في OpenAI. الآن GP في فيليسيس يتصدر هذه الجولة. هو يعرف تماما مدى قيمة توزيع الساحات في تسويق النماذج.
أيون ستويكا كمؤسس مشارك هو الركيزة على مصداقية. أستاذ بيركلي، الذي أنشأ شركتي سبارك وراي، يدير مختبر سكاي للحوسبة. هذه ليست شركة ناشئة عشوائية. إنها بنية تحتية بنيها باحثون يفهمون الأنظمة الموزعة.
تم جمع 250 مليون دولار خلال 7 أشهر. فريق مكون من 40+. 5 ملايين مستخدم شهريا في 150 دولة.
أصبح التقييم فئة بمليارات الدولارات.
من مختبرات كبيرة وليس من كانساس الكبرى هههه أعتقد أن أحدهم يحتاج لتدريب هذه التصحيحات التلقائية على المزيد من الرموز...
5
الأفضل
المُتصدِّرة
التطبيقات المفضلة
