Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mielenkiintoisinta minulle on se, missä @karpathy kuvailee, miksi LLM:t eivät pysty oppimaan kuten ihmiset.
Kuten arvata saattaa, hän keksii ihanan mieleenpainuvan lauseen kuvaamaan RL:ää: "valvontabittien imeminen pillin läpi".
Yhden päämäärän palkinto lähetetään jokaiselle tokenille onnistuneella radalla, mikä painottaa jopa vääriä tai epäolennaisia käänteitä, jotka johtavat oikeaan vastaukseen.
> "Ihmiset eivät käytä vahvistusoppimista, kuten olen sanonut aiemmin. Mielestäni he tekevät jotain erilaista. Vahvistusoppiminen on paljon pahempaa kuin keskivertoihminen luulee. Vahvistusoppiminen on kauheaa. Sattuu vain olemaan niin, että kaikki, mitä meillä oli aiemmin, on paljon pahempaa."
Mitä ihmiset sitten tekevät sen sijaan?
> "Kirja, jota luen, on joukko kehotuksia, joiden avulla voin luoda synteettistä dataa. Manipuloimalla tätä tietoa todella saat tämän tiedon. Meillä ei ole vastinetta LLM:lle; he eivät todellakaan tee niin."
> "Haluaisin nähdä esikoulutuksen aikana jonkinlaisen vaiheen, jossa malli miettii materiaalia ja yrittää sovittaa sen yhteen sen kanssa, mitä se jo tietää. Tälle ei ole vastinetta. Tämä kaikki on tutkimusta."
Miksi emme voi vain lisätä tätä koulutusta LLM-tutkintoihin tänään?
> "On hyvin hienovaraisia, vaikeasti ymmärrettäviä syitä, miksi se ei ole triviaalia. Jos annan vain synteettisen sukupolven mallista, joka ajattelee kirjaa, katsot sitä ja ajattelet: 'Tämä näyttää hyvältä. Miksi en voi harjoitella sillä?' Voisit yrittää, mutta malli itse asiassa huononee paljon, jos jatkat yrittämistä."
> "Sanotaan, että meillä on luku kirjasta ja pyydän LLM:ää miettimään sitä. Se antaa sinulle jotain, joka näyttää erittäin järkevältä. Mutta jos kysyn sitä 10 kertaa, huomaat, että ne kaikki ovat samanlaisia."
> "Et saa näistä malleista sitä rikkautta, monimuotoisuutta ja entropiaa, jonka saisit ihmisiltä. Miten saat synteettisen datan tuottamisen toimimaan romahduksesta huolimatta ja entropian säilyttäen? Se on tutkimusongelma."
Miten ihmiset kiertävät mallin romahduksen?
> "Nämä analogiat ovat yllättävän hyviä. Ihmiset romahtavat elämänsä aikana. Lapset eivät ole vielä ylikuntoisia. He sanovat asioita, jotka järkyttävät sinua. Koska ne eivät ole vielä romahtaneet. Mutta me [aikuiset] olemme romahtaneet. Päädymme palaamaan samoihin ajatuksiin, päädymme sanomaan enemmän ja enemmän samoja asioita, oppimisasteet laskevat, romahdus pahenee entisestään ja sitten kaikki huononee."
Itse asiassa on olemassa mielenkiintoinen artikkeli, jossa väitetään, että unelmointi kehittyi auttamaan yleistämisessä ja vastustamaan liiallista sovittamista päivittäiseen oppimiseen - katso The Overfitted Brain by @erikphoel.
Kysyin Karpathylta: Eikö olekin mielenkiintoista, että ihmiset oppivat parhaiten elämässään (lapsuudessaan), jonka todelliset yksityiskohdat he unohtavat täysin, aikuiset oppivat silti todella hyvin, mutta heillä on kauhea muisti lukemistaan tai katsomistaan asioista, ja LLM:t voivat muistaa mielivaltaisia yksityiskohtia tekstistä, joita kukaan ihminen ei pystyisi, mutta ovat tällä hetkellä melko huonoja yleistämään?
...
Johtavat
Rankkaus
Suosikit