Tämä NVIDIA-artikkeli mursi aivoni. Kaikki puhuvat jatkuvasti muuntajien skaalaamisesta isommilla klustereilla ja älykkäämmillä optimoijilla... samaan aikaan NVIDIA ja Oxford osoittivat juuri, että miljardiparametrin malleja voi kouluttaa evoluutiostrategioilla, menetelmällä, jonka useimmat pitivät muinaisena. Temppu on uusi järjestelmä nimeltä EGGROLL, joka kääntää koko ES:n kustannusmallin. Normaalisti ES kuolee suuressa mittakaavassa, koska jokaiselle populaatiojäsenelle täytyy tuottaa täyden tason häiriömatriisit. Miljardiparametrimalleissa se tarkoittaa järjetöntä muistin liikettä ja järjetöntä laskentaa. Nämä kaverit ratkaisivat ongelman luomalla matalan tason häiriöitä käyttämällä kahta ohutta matriisia A ja B ja antamalla ABT:n toimia päivityksenä. Väestökeskiarvo käyttäytyy sitten kuin täyden ranking-päivityksen tavoin, mutta ei maksa täyttä ranking-hintaa. Mikä on tulos? He käyttävät evoluutiostrategioita, joiden populaatiokoot ovat satojatuhansia, joihin aiemmat työt eivät yltäneet, koska kaikki suli muistipaineen alla. Nyt läpimenokyky on käytännössä yhtä nopea kuin eräpäättely. Se on ennenkuulumatonta millekään liukuvapaalle menetelmälle. Myös matematiikka pitää paikkansa. Matalan tason approksimaatio lähestyy todellista ES-gradienttia 1/r-nopeudella, joten rankin painaminen luo täyden ES-käyttäytymisen ilman laskennallista räjähdystä. Mutta kokeet ovat se, missä homma menee hulluksi. → He esikouluttavat toistuvat LM:t alusta alkaen käyttäen vain kokonaislukutietotyyppejä. Ei liukuvärejä. Ei takapotkuria. Täysin vakaa jopa hyperskaalauksessa. → Ne vastaavat GRPO-tason menetelmiä LLM-päättelytesteissä. Tämä tarkoittaa, että ES voi kilpailla nykyaikaisten RL-päättelymenetelmien kanssa todellisissa tehtävissä. → ES muuttuu yhtäkkiä käyttökelpoiseksi massiivisille, erillisille, hybrideille ja ei-differentioituville järjestelmille juuri niissä paikoissa, joissa backprop on kivulias tai mahdotonta. ...