Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ingin mendapatkan intuisi yang lebih baik tentang cara kerja RL pada LLM.
Jadi saya menulis skrip sederhana untuk mengajari Nanochat menambahkan angka 5 digit.
Saya terkejut betapa cepatnya ia belajar.
Sampai saya melihat generasi model dan menyadari bahwa model baru saja belajar untuk selalu memanggil penerjemah 😂 Python bawaan .
Kode yang saya tulis sangat perbaikan, minimal, dan tidak efisien - saya seorang podcaster profesional, oke?
Tetapi mungkin akan membantu jika Anda hanya ingin melihat dasar-dasar cara kerja REINFORCE atau GRPO. Tautan ke inti di bawah ini.
Pada dasarnya, ini tidak terlalu rumit: hasilkan beberapa lintasan per perintah. Perbarui model Anda agar lebih mungkin mengambil sampel semua token dalam lintasan yang berhasil.

Teratas
Peringkat
Favorit