Gördüğüm en kapsamlı gerçek dil genel kitabı. Google DeepMind'den Kevin Murphy, 128 bin binden fazla atıfı olan ve bunu yazdı. Bunu diğer gerçek gerçek kaynaklardan farklı kılan nedir: → Klasik RL ile modern LLM dönemini birleştirir: "LLM'ler ve RL" konularına ayrılmış bir bölüm var: - RLHF, RLAIF ve ödül modellemesi - PPO, GRPO, DPO, RLOO, TAKVIYE++ - Eğitim akıl yürütme modelleri - Ajanlar için çoklu turlu Uçuş Düzeni - Test zamanı hesaplama ölçeklendirmesi → Temeller kristal net Değer tabanlı yöntemler, politika gradyanları ve aktör-eleştiri gibi her ana algoritma matematiksel titizlikle açıklanır. → Model tabanlı RL ve dünya modelleri uygun kapsama alanı sağlar Dreamer, MuZero, MCTS ve ötesini kapsar, ki bu da tam olarak alanın gidişiği noktasıdır. → Çok Ajanlı Gerçek Düzen Bölümü Oyun teorisi, Nash dengesi ve LLM ajanları için MARL. Yanıtlarda arXiv makalesini paylaştım!