المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
قبل 10 سنوات: مهندس التعليمات بالتعلم المعزز (RL) [1] (القسم 5.3). سلسلة التفكير التكيفي: تتعلم شبكة عصبية في التعلم المعزز الاستعلام عن شبكة "نموذج العالم" الخاصة بها للاستدلال المجرد واتخاذ القرار. متجاوزين نموذج العالم العصبي لعام 1990 [2] للتخطيط بميلي ثانية ومولد الأهداف الفرعية العصبية التكيفية لعام 1991 [3,4] للتخطيط الهرمي.
[1] ج. شميدهوبر (JS، 2015). حول تعلم التفكير: نظرية المعلومات الخوارزمية لتركيبات جديدة من وحدات تحكم التعلم المعزز ونماذج العوالم العصبية المتكررة. ArXiv 1210.0118
[2] JS (1990). جعل العالم قابلا للتمايز: حول استخدام الشبكات العصبية الذاتية الإشراف المتكررة بالكامل للتعلم والتخطيط الديناميكي لتعزيز البيئة غير الثابتة. TR FKI-126-90، TUM. (كما قدم هذا التقرير فضولا مصطنعا ودافعا جوهريا من خلال الشبكات العدائية التوليدية.)
[3] JS (1991). تعلم كيفية توليد أهداف فرعية لمشاهد الحركة. مفاتيح: ICANN'91، ص. 967-972.
[4] ج. س. & آر. وانسيدلر (1992). تخطيط مسارات بسيطة باستخدام مولدات الأهداف الفرعية العصبية. مفاتيح: SAB'92، ص، 196-202، مطبعة معهد ماساتشوستس للتكنولوجيا.

الأفضل
المُتصدِّرة
التطبيقات المفضلة

