المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Akshay 🚀
تبسيط LLMs ووكلاء الذكاء الاصطناعي و RAG والتعلم الآلي من أجلك! • المؤسس المشارك @dailydoseofds_ • BITS Pilani • 3 براءات اختراع • مهندس الذكاء الاصطناعي سابق @ LightningAI
الهندسة في Anthropic أصدرت نجاحا آخر.
كتابهم الداخلي لتقييم عملاء الذكاء الاصطناعي.
إليك أكثر درس غير منطقي تعلمته من ذلك:
لا تختبر الخطوات التي اتخذها وكيلك. اختبر ما ينتجه فعليا.
هذا يتعارض مع كل غريزة. قد تعتقد أن فحص كل خطوة يضمن الجودة. لكن الوكلاء مبدعون. يجدون حلولا لم تتوقعها. معاقبة المسارات غير المتوقعة تجعل تقييماتك هشة.
ما يهم هو النتيجة النهائية. اختبر ذلك مباشرة.
يقسم كتاب الاستراتيجيات ثلاثة أنواع من المصححين:
- المعتمد على الشفرات: سريع وموضوعي، لكنه هش تجاه التنويعات الصحيحة.
- قائم على النماذج: LLM كقاض مع معايير تقديرية. مرن، لكنه يحتاج إلى معايرة.
- الإنسان: المعيار الذهبي، لكنه مكلف. استخدمه باعتدال.
كما يغطي استراتيجيات التقييم لعملاء البرمجة، ووكلاء المحادثة، ووكلاء البحث، ووكلاء استخدام الحاسوب.
أهم النقاط المستخلصة:
- ابدأ ب 20-50 حالة اختبار من إخفاقات حقيقية
- يجب أن تبدأ كل تجربة من بيئة نظيفة
- تشغيل عدة تجارب لأن مخرجات النماذج تختلف
- اقرأ النصوص. هكذا تكتشف أخطاء التصحيح.
إذا كنت جادا بشأن الشحن مع وكلاء موثوقين. أنصح بشدة بقراءته.
الرابط في التغريدة القادمة.

116
لحظة كبيرة لبناة الوكلاء!
هناك نمط يتكرر باستمرار في البرمجيات.
أولا، يركز الجميع على مشكلة "البناء".
تظهر الأطر، وتنضج، وتصبح جيدة حقا. ثم فجأة، ينقلب القيد إلى النشر.
رأينا ذلك مع الشبكات العصبية.
كانت PyTorch وTensorFlow وCaffe جميعها ممتازة لبناء النماذج. لكن نشرها يعني التعامل مع صيغ وأوقات تشغيل مختلفة.
سمح ONNX للمطورين ببناء أي إطار عمل يريدونه، والتصدير إلى صيغة قياسية، والنشر في أي مكان.
نحن نشاهد نفس النمط يتكشف مع عملاء الآن.
أطر مثل LangGraph وCrewAI وAgno وStrands ناضجة بما يكفي بحيث لم يعد بناء وكيل هو الجزء الأصعب.
بدلا من ذلك، ما يحدث بعد ذلك: النشر، البث، إدارة الذاكرة، قابلية الملاحظة، والتكبير التلقائي.
هذه ليست مشاكل في الوكيل بل مشاكل في البنية التحتية (underfra). والآن، كل فريق الذكاء الاصطناعي تحدثت إليه يحلها من الصفر.
xpander يتبع نهج ONNX لهذه المشكلة، وأعتقد أنه النموذج الذهني الصحيح.
الفكرة الأساسية بسيطة: أحضر وكيلك (المدمج في أي إطار عمل)، ونشره عبر xpander، واحصل على كل بنية الإنتاج.
ويشمل ذلك:
- نشر الخادم بدون خادم خلال ~2 دقيقة
- بث SSE لتجربة المستخدم بالتفكير في الوقت الحقيقي
- إدارة الذاكرة على مستوى الجلسة/المستخدم
- 2,000+ موصل (Slack، GitHub، والمزيد)
- واجهة برمجة تطبيقات موحدة لاستدعاء أي وكيل، بغض النظر عن الإطار
واجهة برمجة التطبيقات الموحدة ربما هي الجزء الأكثر إثارة للاهتمام في هذا.
بشكل أساسي، أي وكيل تقوم بنشره (بغض النظر عن الإطار) يحصل على نفس نقطة النهاية للاستدعاء، مع نفس هيكل الحمولة، وتنسيق البث، ونمط المصادقة.
هذا يعني أن واجهتك الأمامية لا تحتاج إلى معرفة ما إذا كان الوكيل مبنيا باستخدام LangGraph أو CrewAI أو شيء مخصص. تصل فقط إلى نقطة النهاية وتحصل على رد.
هذا مهم لأن في العديد من المنظمات، ينتهي الأمر ببناء وكلاء بأطر عمل مختلفة بناء على تفضيلاتهم أو حالات استخدامهم.
بدون طبقة موحدة، ينتهي بهم الأمر بالحفاظ على أنماط تكامل متعددة وتطبيقات تدفق.
أما XPnder، فيوفر عقد API واحد على كل وكيل، لذا لا يحتاج التطبيق المستخدم إلى معرفة الإطار الذي تم بناء الوكيل فيه.
الفيديو أدناه يوضح واجهة برمجة التطبيقات الموحدة ل xpander أثناء العمل.
يمكنك تمديد نفس تنسيق نقطة النهاية الموحدة في واجهة برمجة التطبيقات لأي وكيل، بغض النظر عن الإطار، والحصول على نفس فوائد البث والذاكرة والملاحظة والتوسع دون تغيير أي سطر من كود التكامل.
المبنى يبقى منفصلا عن النشر، وهذا بالضبط ما يجب أن يكون.
لقد شاركت مستودع GitHub في الردود!
124
الجميع يفكر في هذه الورقة الجديدة من AWS.
نموذج أصغر بمئة مرة من GPT وكلود سحقهم في استدعاء الأدوات.
قام باحثو AWS بأخذ نموذج OPT-350M من فيسبوك، وهو نموذج من عام 2022 بمعلمات أقل بمقدار 500 مرة من GPT، وقاموا بضبطه بدقة على ToolBench لعصر واحد.
النتائج مذهلة:
↳ SLM لديهم: نسبة نجاح 77.55٪
↳ ChatGPT-CoT: 26٪
↳ ToolLLaMA: 30٪
↳ كلود-كولود كوت: 2.73٪
إليك ما يحدث:
تعاني النماذج الكبيرة من "تخفيف المعاملات". معظم سعتها محسنة للمهام اللغوية العامة، وليس أنماط إدخال الفكر-الفعل-الفعل الدقيقة التي يحتاجها استدعاء الأدوات.
نموذج صغير مدرب خصيصا على استدعاء الأدوات يركز كل قدرته على ذلك الشيء الواحد. لا يوجد مشتتات.
كان إعداد التدريب بسيطا بشكل مفاجئ. Hugging Face TRL، أمثلة 187K، معدل تعلم 5e-5، وقص تدرج قوي لتحقيق الاستقرار.
لكن أريد أن أوضح شيئا:
هذا لا يعني أن النماذج الصغيرة تفوز في كل مكان. يعترف المؤلفون بأن نموذجهم قد يواجه صعوبة في تعقيدات سياقية معقدة أو طلبات غامضة. إنه متخصص، وليس عام.
ومع ذلك، إذا كنت تبني أنظمة وكالية وترغب في تقليل تكاليف الاستدلال بمراسل، فهذا يستحق الانتباه.
لقد شاركت رابط الورقة في التغريدة القادمة.

72
الأفضل
المُتصدِّرة
التطبيقات المفضلة
