Muốn hiểu rõ hơn về cách RL hoạt động trên LLMs. Vì vậy, tôi đã viết một đoạn mã đơn giản để dạy Nanochat cộng các số 5 chữ số. Tôi đã ngạc nhiên về tốc độ mà nó học được. Cho đến khi tôi nhìn vào các thế hệ của mô hình và nhận ra rằng nó chỉ học cách luôn gọi trình thông dịch Python tích hợp sẵn 😂. Đoạn mã tôi viết rất cơ bản, tối thiểu và không hiệu quả - tôi là một podcaster chuyên nghiệp, được chứ? Nhưng nó có thể hữu ích nếu bạn chỉ muốn xem những điều cơ bản về cách REINFORCE hoặc GRPO hoạt động. Liên kết đến gist bên dưới. Về cơ bản, nó không quá phức tạp: tạo ra nhiều quỹ đạo cho mỗi lời nhắc. Cập nhật mô hình của bạn để làm cho nó có khả năng hơn trong việc lấy mẫu tất cả các token trong các quỹ đạo thành công.