متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

elvis

البناء مع وكلاء الذكاء الاصطناعي @dair_ai • السابق: Meta الذكاء الاصطناعي ، Galactica LLM ، Elastic ، PaperswithCode ، دكتوراه • أشارك الأفكار حول كيفية البناء مع LLMs & الذكاء الاصطناعي Agents ⬇️

نشرت جوجل مؤخرا دليلا رائعا حول هندسة السياق الفعالة لأنظمة الوكلاء المتعددين. انتبهوا لهذه الفكرة، أيها المطورون الذكاء الاصطناعي! (ضع علامة مرجعية) إليكم أهم ما استخلصته: نوافذ السياق ليست عنق الزجاجة. هندسة السياق هي كذلك. بالنسبة للمشاكل الأكثر تعقيدا وطويلة الأفق، لا يمكن التعامل مع إدارة السياق كمشكلة بسيطة ل "التلاعب بالسلاسل". النهج الافتراضي لمعالجة السياق في أنظمة الوكلاء اليوم لا يزال حشو كل شيء في الطلب. المزيد من التاريخ، المزيد من الرموز، المزيد من الارتباك. معظم الفرق تتعامل مع السياق كمشكلة في ربط السلاسل النصية. لكن تفريغ السياق الخام يخلق ثلاثة إخفاقات حرجة: > انفجار التكاليف بسبب المعلومات المتكررة > تدهور الأداء بسبب تأثيرات "الضياع في المنتصف" > زيادة معدلات الهلوسة عندما يخطئ الوكلاء في نسب الأفعال عبر النظام تصبح إدارة السياق مسألة معمارية إلى جانب التخزين والحوسبة. هذا يعني أن التحويلات الصريحة تحل محل ربط السلاسل العشوائي. يتلقى الوكلاء السياق المطلوب الأدنى بشكل افتراضي ويطلبون معلومات إضافية صراحة عبر الأدوات. يبدو أن مجموعة تطوير الوكلاء من جوجل تفكر بعمق في إدارة السياق. يقدم بنية متدرجة تعامل السياق ك "عرض مترجم فوق نظام حالي" بدلا من نشاط تعبئة الطلبات. كيف يبدو هذا؟ 1) الهيكل: النموذج الطبقي يفصل الإطار التخزين عن العرض عبر أربع طبقات مميزة: 1) السياق العامل يتعامل مع وجهات النظر المؤقتة لكل استدعاء. 2) تحافظ الجلسة على سجل الأحداث الدائم، حيث تلتقط كل رسالة، وكل نداء أداة، وإشارة تحكم. 3) توفر الذاكرة معرفة قابلة للبحث وطويلة الأمد تتجاوز الجلسات الفردية. 4) تدير القطع البيانات الثنائية الكبيرة من خلال مراجع مترجمة للنسخ بدلا من التضمين الداخلي. كيف يعمل تجميع السياق فعليا؟ يعمل من خلال تدفقات نماذج اللغة الكبيرة المرتبة مع معالجات صريحة. يقوم معالج المحتوى بثلاث عمليات: يقوم الاختيار بتصفية الأحداث غير ذات الصلة، والتحويل لتسوية الأحداث إلى كائنات محتوى تم تدميرها بشكل صحيح، وحقن يكتب التاريخ المنسق في طلب نموذج اللغة الكبيرة. معالج المحتوى هو في الأساس الجسر بين الجلسة وسياق العمل. تنفذ البنية التخزين المؤقت للبادئات عن طريق تقسيم السياق إلى بادئات مستقرة (تعليمات، هوية، ملخصات) ولاحقات متغيرات (آخر الأدوار، مخرجات الأدوات). وفوق ذلك، يضمن البدائي static_instruction عدم قابلية التغيير لأوامر النظام، مما يحافظ على صلاحية ذاكرة التخزين المؤقت عبر الاستدعاءات. 2) الإدارة الوكالية لما هو مهم الآن بمجرد أن تكتشف الهيكل، يصبح التحدي الأساسي هو الأهمية. عليك أن تعرف ما الذي ينتمي إلى نافذة النشطة الآن. يجيب ADK على هذا من خلال التعاون بين العمارة المعرفة بالإنسان واتخاذ القرار الوكالي. المهندسون يعرفون مكان وجود البيانات وكيفية تلخيصها. يقرر الوكلاء ديناميكيا متى "يصلوا" إلى كتل ذاكرة محددة أو تشوهات أثرية. بالنسبة للحمولات الكبيرة، يطبق ADK نمط مقبض. استجابة CSV بحجم 5 ميجابايت أو JSON ضخمة تعيش في مخزن القطع الأثرية، وليس في التوجيه. الوكلاء يرون فقط المراجع الخفيفة الوزن بشكل افتراضي. عندما تكون البيانات الخام مطلوبة، يستدعون LoadArtifactsTool للتوسع المؤقت. بمجرد اكتمال المهمة، يتم تفريغ القطعة الأثرية. هذا يحول ضريبة السياق الدائمة إلى وصول دقيق عند الطلب. للمعرفة طويلة الأمد، توفر خدمة الذاكرة نمطين للاسترجاع: 1) الاستدعاء التفاعلي: يتعرف الوكلاء على فجوات المعرفة ويبحثون صراحة في المجموعة. 2) الاستدعاء الاستباقي: تقوم المعالجات المسبقة بتشغيل بحث التشابه عند إدخال المستخدم، وحقن المقتطفات ذات الصلة قبل استدعاء النموذج. يتذكرون العملاء بالضبط المقاطع المطلوبة للخطوة الحالية بدلا من حمل كل محادثة أجروها. كل هذا يذكرني بالنهج الطبقي في مهارات كلود، الذي يحسن الاستخدام الفعال للسياق في كود كلود. 3) السياق متعدد الوكلاء تعاني أنظمة الوكيل الواحد من تضخم السياق. عند بناء الوكلاء المتعددين، تتفاقم هذه المشكلة أكثر، مما يؤدي بسهولة إلى "انفجار السياق" مع دمج المزيد من الوكلاء الفرعيين. لكي يعمل تنسيق الوكلاء المتعددين بفعالية، يوفر ADK نمطين. يعامل وكلاء كأدوات وكلاء متخصصين كأنهم قابلون للاستدعاء يتلقون توجيهات مركزة دون تاريخ أجدادي. نقل الوكيل، الذي يتيح تسليم كامل للتحكم حيث يرث الوكلاء الفرعيون عروض الجلسة. يتحكم include_contents في تدفق السياق، حيث يفرض السياق العامل الكامل أو يوفر فقط التعليمات الجديدة. ما الذي يمنع الهلوسة أثناء تسليم العميل؟ الحل هو ترجمة المحادثة. تتحول رسائل المساعد السابق إلى سياق سردي مع علامات النسبة. يتم تمييز استدعاءات الأدوات من وكلاء آخرين بشكل صريح. كل وكيل يتولى دور المساعد دون أن يسيء نسبه تاريخ النظام الأوسع لنفسه. وأخيرا، لا تحتاج إلى استخدام Google ADK لتطبيق هذه الرؤى. أعتقد أن هذه القواعد يمكن أن تنطبق بشكل شامل عند بناء أنظمة متعددة الوكلاء. (الصورة بإذن من نانو بانانا برو)

الحجة المؤيدة لتوسيع البيئة // قد يكون توسيع البيئة مهما بقدر مقياس النماذج في الذكاء الاصطناعي الوكلاء. تشير الأبحاث الحالية الذكاء الاصطناعي إلى أن بناء نموذج قوي الذكاء الاصطناعي الوكيل ليس مجرد التفكير الأفضل. بل يتعلق أيضا ببيئات أفضل. النهج الافتراضي لتدريب وكلاء الذكاء الاصطناعي القادرين اليوم هو جمع المسارات الثابتة أو العروض البشرية. هذا يتطلب المزيد من البيانات، والمزيد من الأمثلة، ومزيدا من جهد التعليق. لكن البيانات الثابتة لا يمكن أن تعلم اتخاذ القرار الديناميكي. النماذج المدربة بهذه الطريقة تكافح مع الطبيعة الطويلة الأمد والموجهة نحو الأهداف للمهام الوكالية الحقيقية. يقدم هذا البحث الجديد Nex-N1، وهو إطار عمل يقوم بشكل منهجي بتوسيع تنوع وتعقيد بيئات التدريب التفاعلية بدلا من مجرد توسيع البيانات. قدرات الوكلاء تنشأ من التفاعل، وليس من التقليد. بدلا من جمع المزيد من العروض التوضيحية، قاموا ببناء بنية تحتية لتوليد هياكل وكلاء متنوعة وسير عمل تلقائيا من مواصفات اللغة الطبيعية. يتكون النظام من ثلاثة مكونات. يوفر NexAU (عالم الوكلاء) إطار عمل وكيل شامل يولد تسلسلات هرمية معقدة للوكلاء من تكوينات بسيطة. يقوم NexA4A (وكيل مقابل وكيل) تلقائيا بتركيب هياكل وكلاء متنوعة من اللغة الطبيعية. يجسر NexGAP فجوة الواقع بين المحاكاة من خلال دمج أدوات MCP الواقعية لتوليف مسار المسار الأرضي. النتائج: - على منصة τ2، يحصل Nex-N1 المبني على DeepSeek-V3.1 على 80.2، متفوقا على النموذج الأساسي البالغ 42.8. - في SWE-bench Verified، يحقق Qwen3-32B-Nex-N1 نسبة 50.5٪ مقارنة بنموذج أساسي بنسبة 12.9٪. - في BFCL v4 للاستخدام في الأدوات، يتفوق Nex-N1 (65.3) على GPT-5 (61.6). في التقييمات البشرية لتطوير المشاريع الواقعية عبر 43 سيناريو ترميز، يفوز Nex-N1 أو يتعادلان مع كلود سونيت 4.5 في 64.5٪ من الحالات وضد GPT-5 في ~70٪ من الحالات. كما بنوا وكيل بحث عميق على Nex-N1، محققا 47.0٪ في معيار البحث العميق، مع إمكانيات لتوليد تقارير مرئية، بما في ذلك الشرائح وملصقات البحث. ورق:

الأفضل

المُتصدِّرة

التطبيقات المفضلة