Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Diat luennolleni "LLM Reasoning" Stanford CS 25:ssä:
Tärkeimmät kohdat:
1. Päättely LLM:issä tarkoittaa yksinkertaisesti välimerkkien sarjan luomista ennen lopullisen vastauksen tuottamista. Sillä, muistuttaako tämä ihmisen päättelyä, ei ole merkitystä. Ratkaiseva oivallus on, että muuntajamalleista voi tulla lähes mielivaltaisen tehokkaita luomalla monia välimerkkejä ilman, että mallin kokoa tarvitsee skaalata (
2. Esikoulutetut mallit, jopa ilman hienosäätöä, pystyvät päättelemään. Haasteena on, että päättelyyn perustuvat tulosteet eivät useinkaan näy tulosteen jakauman yläosassa, joten tavallinen ahne dekoodaus ei tuota niitä esiin (
3. Kehotustekniikoita (esim. ajatusketjukehotus tai "ajatellaan askel askeleelta") ja ohjattua hienosäätöä käytettiin yleisesti päättelyn aikaansaamiseksi. Nyt RL-hienosäätö on noussut tehokkaimmaksi menetelmäksi. Useat laboratoriot löysivät tämän tempun itsenäisesti. Googlella kunnia kuuluu Jonathan Laille tiimistäni. Teoriamme perusteella (katso kohta 1) RL:n skaalaamisen tulisi keskittyä pitkien vastausten tuottamiseen jonkin muun sijaan.
4. LLM-päättelyä voidaan parantaa huomattavasti luomalla useita vastauksia ja yhdistämällä ne sen sijaan, että luotettaisiin yhteen vastaukseen (
177,34K
Johtavat
Rankkaus
Suosikit