Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bu NVIDIA makalesi beynimi bozdu.
Herkes daha büyük kümelerle ve daha akıllı optimizatörlerle ölçeklendirme transformatörlerinden bahsediyor... bu arada NVIDIA ve Oxford, çoğu kişinin eski olarak kabul ettiği evrim stratejileriyle milyar parametreli modelleri eğitebileceğinizi gösterdi.
Püf noktası, EGGROLL adında yeni bir sistem ve ES'nin tüm maliyet modelini tersine çeviriyor.
Normalde, ES ölçekte ölür çünkü her popülasyon üyesi için tam rütbeli bozulma matrisleri üretmeniz gerekir. Milyar parametreli modeller için bu, çılgın bellek hareketi ve saçma hesaplama demek.
Bu kişiler, iki ince matris A ve B kullanarak düşük rütbeli bozulmalar üreterek ve ABT'nin güncelleme olarak görev yapmasına izin vererek bunu çözdüler.
Nüfus ortalaması, tam rütbe bedelini ödemeden tam bir sıralama güncellemesi gibi davranır.
Sonuç ne oldu?
Yüzbinlerce nüfus büyüklüğüyle evrim stratejileri yürütüyorlar; önceki çalışmaların hepsi hafıza baskısı altında eridiği için ulaşamıyordu. Şimdi, veri verimliliği temelde toplu çıkarım kadar hızlıdır.
Bu, gradyansız yöntemler için duyulmamış bir durum.
Matematik de doğru.
Düşük dereceli yaklaşım, gerçek ES gradyanına 1/r hızında yaklaşır, böylece sırayı zorlamak, hesaplama patlaması olmadan tam ES davranışını yeniden yaratır.
Ama işler çılgınlaşan nokta deneylerdir.
→ Sadece tamsayı veri tipleri kullanılarak sıfırdan tekrarlayan LM'leri önceden eğitirler. Eğim yok. Arka pervane yok. Hiper ölçekte bile tamamen stabil.
→ LLM akıl yürütme kıyaslamalarında GRPO seviyesinde yöntemlerle eşleşirler.
Bu da ES'nin gerçek görevlerde modern RL için akıl yürütme yaklaşımlarıyla rekabet edebileceği anlamına gelir.
→ ES, backprop'un tam olarak acı verici veya imkansız olduğu devasa sistemler için aniden kullanılabilir hale gelir.
...

En İyiler
Sıralama
Takip Listesi

