Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Blogger podcast terkenal Dwarkesh Patel baru-baru ini melakukan wawancara dengan AK, dan inilah cara dia menggambarkannya:
Bagi saya, bagian yang paling menarik adalah Andrej Karpathy (seorang ahli AI yang sering disebut sebagai "Kashen") menjelaskan mengapa model bahasa besar (LLM) tidak dapat belajar seperti manusia.
Benar saja, Kashen menciptakan kata yang sangat jelas untuk menggambarkan Reinforcement Learning (RL): "Menyerap data yang diawasi dengan sedotan".
Apa artinya ini? Artinya, dalam upaya yang berhasil (seperti AI memenangkan permainan catur), hadiah akhir untuk "menang" akan disebarkan secara merata ke setiap langkah yang diambil dan setiap kata yang dihasilkannya. Bahkan jika beberapa langkah di tengah salah atau tidak relevan, selama hasil akhirnya benar, semua langkah ini akan "ditambahkan" oleh algoritme.
> "Saya telah mengatakan sebelumnya bahwa manusia tidak menggunakan pembelajaran penguatan. Saya pikir manusia belajar dengan sangat berbeda. Pembelajaran penguatan jauh lebih buruk daripada yang dipikirkan rata-rata orang. Pembelajaran intensif menyebalkan. Hanya saja algoritme lain yang kami miliki sebelumnya jauh lebih buruk darinya. ”
Lantas, bagaimana manusia belajar?
> "Saya membaca sebuah buku yang bagi saya adalah serangkaian 'petunjuk' untuk membuat saya 'pembuatan data sintetis' di kepala saya. Anda harus bekerja dengan informasi ini secara proaktif untuk benar-benar mendapatkan pengetahuan. Namun, model bahasa besar (LLM) tidak memiliki mekanisme yang sesuai; Mereka benar-benar tidak melakukan itu. ”
> "Saya ingin melihat tautan dalam fase prapelatihan model di mana model dapat 'merenungkan' apa yang dibacanya dan mencoba 'mencocokkan' dengan apa yang sudah diketahuinya. Sekarang tidak ada mekanisme seperti itu sama sekali. Ini masih dalam tahap penelitian. ”
Jadi mengapa kita tidak bisa menambahkan pelatihan "berpikir" semacam ini ke model bahasa besar sekarang?
> "Ada alasan yang sangat halus dan tidak dapat dipahami untuk ini, yang membuatnya tidak sesederhana itu. Jika saya meminta model untuk 'berpikir' tentang sebuah buku dan menghasilkan beberapa data sintetis, pada pandangan pertama Anda berpikir, 'Ini terlihat bagus!' Mengapa Anda tidak bisa menggunakannya untuk pelatihan? Anda dapat mencoba, tetapi jika Anda terus melakukan ini, modelnya akan benar-benar berkinerja lebih buruk. ”
> "Katakanlah kita mengambil satu bab dari sebuah buku dan saya meminta model bahasa besar untuk 'berpikir'. Ini akan memberi Anda paragraf yang terlihat sangat masuk akal. Tetapi jika saya memintanya untuk menjawab 10 kali, Anda akan melihat bahwa jawabannya hampir identik dalam 10 kali itu. ”
> "Anda tidak mendapatkan kekayaan, keragaman, dan 'entropi' pemikiran manusia dari model-model ini (dalam hal ini, kekacauan dan kreativitas berpikir). Anda tidak bisa mendapatkan semua jenis ide liar seperti seseorang. Jadi, bagaimana data sintetis dapat bekerja dan mempertahankan 'entropi' ini ketika model cenderung 'runtuh' (artinya jawabannya menjadi tunggal dan tidak memiliki keragaman)? Ini masih menjadi masalah penelitian. ”
Jadi, bagaimana manusia menghindari "runtuhnya pemikiran" ini?
> Ide (analogi antara orang dan model) sangat bagus. Dalam kehidupan mereka sendiri, manusia benar-benar akan 'runtuh'. Anak-anak belum 'overfitted' (mengacu pada pemikiran yang kaku dan hanya beradaptasi dengan pola tertentu). Mereka akan mengatakan sesuatu yang mengejutkan Anda. Itu karena mereka belum 'runtuh'. Tapi kami orang dewasa telah 'pingsan'. Kita akhirnya memikirkan hal yang sama berulang kali, apa yang kita katakan menjadi semakin konvergen, tingkat belajar kita menurun, 'keruntuhan' semakin buruk, dan akhirnya semuanya menurun. ”
Faktanya, sebuah makalah yang menarik ("The Overfitted Brain" karya Erik Hoel) menunjukkan bahwa evolusi fungsi mimpi manusia adalah untuk membantu kita meningkatkan 'generalisasi' kita (kemampuan untuk menarik kesimpulan) dan menolak 'overfitting' yang disebabkan oleh pembelajaran sehari-hari.
...
Teratas
Peringkat
Favorit