Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Slide untuk kuliah saya "Penalaran LLM" di Stanford CS 25:
Poin-poin penting:
1. Penalaran dalam LLM berarti menghasilkan urutan token perantara sebelum menghasilkan jawaban akhir. Apakah ini menyerupai penalaran manusia tidak relevan. Wawasan pentingnya adalah bahwa model transformator dapat menjadi hampir sewenang-wenang dengan menghasilkan banyak token perantara, tanpa perlu menskalakan ukuran model (
2. Model yang telah dilatih sebelumnya, bahkan tanpa penyetelan halus, mampu bernalar. Tantangannya adalah bahwa output berbasis penalaran sering tidak muncul di bagian atas distribusi output, sehingga decoding serakah standar gagal memunculkannya (
3. Teknik prompting (misalnya, prompting chain-of-thought atau "mari kita berpikir selangkah demi selangkah") dan finetuning yang diawasi biasanya digunakan untuk mendapatkan penalaran. Sekarang, penyempurnaan RL telah muncul sebagai metode yang paling kuat. Trik ini ditemukan secara independen oleh beberapa laboratorium. Di Google, pujian diberikan kepada Jonathan Lai di tim saya. Berdasarkan teori kami (lihat poin 1), penskalaan RL harus fokus pada menghasilkan respons yang panjang daripada sesuatu yang lain.
4. Penalaran LLM dapat sangat ditingkatkan dengan menghasilkan beberapa respons dan kemudian menggabungkannya, daripada mengandalkan satu respons (
177,28K
Teratas
Peringkat
Favorit