Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Robert Youssef
Makalah ini mengejutkan saya 🤯
Semua orang di X terus membual tentang "LLM-as-a-judge" seperti itu adalah peramal kebenaran ajaib.
Tapi makalah ini menunjukkan sesuatu yang gila:
Sebagian besar evaluasi LLM yang Anda lihat bias oleh desain bukan karena model itu buruk, tetapi karena juri itu sendiri diam-diam salah menggambarkan skor.
Inilah bagian liarnya:
Jika seorang hakim sedikit buruk dalam menangkap jawaban yang salah (spesifisitas rendah), itu meningkatkan akurasi.
Jika sedikit buruk dalam mengenali jawaban yang benar (sensitivitas rendah), itu mengempiskan akurasi.
Model yang sama. Output yang sama.
Tetapi Anda mendapatkan dua hakim yang berbeda = dua "akurasi" yang berbeda.
Penulis menunjukkan matematika, kurva kesalahan, dan titik yang tepat di mana hakim mulai berbohong kepada Anda tanpa sengaja.
Jadi mereka membangun perbaikan:
Penaksir plug-in yang menyesuaikan skor yang dinilai kembali ke skor riil menggunakan data kalibrasi.
Ditambah interval kepercayaan yang akhirnya mencerminkan ketidakpastian dari set eval dan set kalibrasi.
Inilah yang mengejutkan saya:
Mereka bahkan menunjukkan cara mengalokasikan sampel kalibrasi secara efisien sehingga Anda tidak membuang anggaran, sesuatu yang tidak dibicarakan oleh siapa pun di LLM eval.
Jika Anda telah membandingkan model menggunakan "akurasi nilai LLM" mentah...
Setengah dari bagan yang Anda lihat di timeline mungkin salah.
Makalah ini adalah pemeriksaan realitas untuk seluruh ekosistem eval.

28,79K
Makalah NVIDIA ini baru saja menghancurkan otak saya.
Semua orang terus berbicara tentang penskalaan transformator dengan kluster yang lebih besar dan pengoptimal yang lebih cerdas... sementara itu, NVIDIA dan Oxford baru saja menunjukkan bahwa Anda dapat melatih model miliaran parameter menggunakan strategi evolusi, metode yang kebanyakan orang anggap kuno.
Triknya adalah sistem baru yang disebut EGGROLL, dan membalik seluruh model biaya ES.
Biasanya, ES mati dalam skala besar karena Anda harus menghasilkan matriks gangguan peringkat penuh untuk setiap anggota populasi. Untuk model miliaran parameter, itu berarti gerakan memori yang gila dan komputasi yang konyol.
Orang-orang ini menyelesaikannya dengan menghasilkan gangguan peringkat rendah menggunakan dua matriks kurus A dan B dan membiarkan ABT bertindak sebagai pembaruan.
Rata-rata populasi kemudian berperilaku seperti pembaruan peringkat penuh tanpa membayar harga peringkat penuh.
Hasilnya?
Mereka menjalankan strategi evolusi dengan ukuran populasi ratusan ribu yang tidak dapat disentuh oleh pekerjaan sebelumnya karena semuanya meleleh di bawah tekanan ingatan. Sekarang, throughput pada dasarnya secepat inferensi batch.
Itu tidak pernah terdengar untuk metode bebas gradien apa pun.
Matematika juga diperiksa.
Perkiraan peringkat rendah menyatu ke gradien ES yang sebenarnya pada tingkat 1/r, sehingga mendorong peringkat menciptakan kembali perilaku ES penuh tanpa ledakan komputasi.
Tapi eksperimen adalah di mana itu menjadi gila.
→ Mereka melatih LM berulang dari awal hanya menggunakan tipe data bilangan bulat. Tidak ada gradien. Tidak ada backprop. Sepenuhnya stabil bahkan pada skala tinggi.
→ Mereka cocok dengan metode tingkat GRPO pada tolok ukur penalaran LLM.
Itu berarti ES dapat bersaing dengan pendekatan RL-untuk-penalaran modern pada tugas-tugas nyata.
→ ES tiba-tiba menjadi layak untuk sistem masif, diskrit, hibrida, dan tidak dapat dibedakan di tempat yang tepat di mana backprop menyakitkan atau tidak mungkin.
Makalah ini diam-diam menulis ulang batas:
kami tidak berjuang untuk menskalakan ES karena algoritmenya buruk, kami berjuang karena kami melakukannya dengan cara yang paling mahal.
NVIDIA dan Oxford menghilangkan kemacetan.
Dan sekarang strategi evolusi bukanlah ide lama... mereka adalah metode pelatihan skala perbatasan.

114,34K
Ini membuat saya 🤯 terpesona
Saya baru saja membaca makalah MIT tentang ARC dan itu benar-benar mengubah cara saya melihat tolok ukur.
Para peneliti sama sekali tidak memperlakukan ARC seperti teka-teki logika. Mereka memperlakukan setiap tugas sebagai transformasi visual.
Kisi masuk → kisi-kisi. Tidak ada yang lebih rumit dari itu.
Mereka membangun Vision Transformer kecil, melatihnya dari awal pada kumpulan data kecil ARC, dan menggunakan trik kanvas sederhana untuk menempatkan setiap contoh seperti gambar.
Kemudian mereka menambahkan perubahan skala, terjemahan, dan visual dasar sebelumnya yang akan Anda lihat dalam pekerjaan visi komputer klasik.
Itu saja.
Tidak ada rantai pemikiran, tidak ada petunjuk, tidak ada trik simbolis yang cerdas.
Hanya model yang melihat piksel dan mempelajari bagaimana bentuk bergerak, membalik, tumbuh, menciutkan, atau terbawa.
Bagian liar?
Model kecil ini mencapai 54.5% saja dan 60.4% jika dikombinasikan dengan U-Net.
Itu tepat di sekitar kinerja manusia rata-rata dengan model yang sesuai dengan ukuran aplikasi seluler kecil.
Melihat ARC diselesaikan dengan cara ini membuat seluruh tolok ukur terasa berbeda.
Tugas-tugas tiba-tiba terlihat seperti pemetaan gambar, bukan aturan tersembunyi. Tugas refleksi sebenarnya terlihat seperti pantulan.
Tugas simetri terlihat seperti simetri. Tugas gravitasi terlihat seperti potongan-potongan yang "jatuh" lurus ke bawah kanvas.
Sejujurnya saya masih memprosesnya.
Ini mungkin hasil ARC paling membumi yang pernah saya baca selama bertahun-tahun dan itu berasal dari memperlakukan tolok ukur yang paling harfiah yang pernah dimiliki siapa pun.

7,14K
Teratas
Peringkat
Favorit
