Ikhtisar RL paling komprehensif yang pernah saya lihat. Kevin Murphy dari Google DeepMind, yang memiliki lebih dari 128 ribu kutipan, menulis ini. Apa yang membedakannya dari sumber daya RL lainnya: → Ini menjembatani RL klasik dengan era LLM modern: Ada seluruh bab yang didedikasikan untuk "LLM dan RL" yang meliputi: - Pemodelan RLHF, RLAIF, dan hadiah - PPO, GRPO, DPO, RLOO, REINFORCE++ - Pelatihan model penalaran - RL multi-putaran untuk agen - Penskalaan komputasi waktu pengujian → Dasar-dasarnya sangat jelas Setiap algoritma utama, seperti metode berbasis nilai, gradien kebijakan, dan kritik aktor dijelaskan dengan ketelitian matematis. → Model RL berbasis model dan dunia mendapatkan cakupan yang tepat Mencakup Dreamer, MuZero, MCTS, dan seterusnya, yang persis ke mana bidangnya dituju. → Bagian RL multi-agen Teori permainan, keseimbangan Nash, dan MARL untuk agen LLM. Saya telah membagikan makalah arXiv dalam balasan!