بعض الشرائح من حديثي في @PyTorch CONF في وقت سابق من هذا الأسبوع حول خيارات تصميم المدققين وكيف قمنا ببناء النظام البيئي الرائد لبيئات RL المفتوحة :)
لا سيما: - نعتقد أن التغليف الصحيح للبيئة هو حزمة Python قابلة للتثبيت تنفذ وظيفة المصنع ، والتي يمكنها إدارة الموارد الخارجية إما عبر مكتبة من المكونات التي تم إنشاؤها مسبقا أو عبر المشغلات المخصصة الخاصة بها - نعتقد أن واجهة برمجة تطبيقات OpenAI Chat Completions هي المستوى الصحيح من التجريد لمعظم المطورين الذين يقومون ببناء البيئات ، مع OpenAI Completions كخيار لجزء من الحالات التي تتطلب تحكما أكثر دقة - نعتقد أن المدربين ومطوري أطر البيئة يجب أن يتحملوا عبء تعريض البدائيات النظيفة والمألوفة لبناة البيئة ، والتي تعكس تجارب التطوير لبناء العوامل الثابتة أو القيم - نعتقد أن بيئات RL ل LLMs تجلب تحديات فريدة مقابل العصور السابقة من RL ، وأن التجريدات يجب أن تتطور لتفسير ذلك - نعتقد أن الحاويات مهمة للعديد من البيئات ، ولكن لا ينبغي أن تكون إلزامية للبيئات التي لا تحتاج إليها - نعتقد أن بناء هذا النظام البيئي يمثل تحديا عالميا ، ويتطلب مناقشات دقيقة ومفتوحة بين أصحاب المصلحة المهتمين لضمان استفادة الجميع نقضي الكثير من الوقت في التفكير في هذه الأشياء ، ومناقشة المقايضات ، والتكرار ، والتجريب. إذا كان هناك شيء تحتاجه لا ندعمه بعد ، أو اقتراحات حول كيفية تحسينها ، فنحن جميعا آذان :)
‏‎22.35‏K