Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dia's voor mijn lezing "LLM Redeneren" bij Stanford CS 25:
Belangrijke punten:
1. Redeneren in LLM's betekent simpelweg het genereren van een reeks tussenliggende tokens voordat het uiteindelijke antwoord wordt geproduceerd. Of dit lijkt op menselijke redenering is irrelevant. De cruciale inzicht is dat transformer-modellen bijna willekeurig krachtig kunnen worden door veel tussenliggende tokens te genereren, zonder dat het nodig is om de modelgrootte te schalen.
2. Voorgetrainde modellen, zelfs zonder enige fine-tuning, zijn in staat tot redeneren. De uitdaging is dat op redenering gebaseerde outputs vaak niet bovenaan de outputdistributie verschijnen, waardoor standaard greedy decoding faalt om ze naar voren te brengen.
3. Prompting-technieken (bijv. chain-of-thought prompting of "laten we stap voor stap denken") en gesuperviseerde fine-tuning werden vaak gebruikt om redeneren uit te lokken. Nu is RL fine-tuning naar voren gekomen als de krachtigste methode. Deze truc werd onafhankelijk ontdekt door verschillende laboratoria. Bij Google gaat de eer naar Jonathan Lai van mijn team. Op basis van onze theorie (zie punt 1) zou het schalen van RL zich moeten richten op het genereren van lange antwoorden in plaats van iets anders.
4. LLM-redeneren kan enorm worden verbeterd door meerdere antwoorden te genereren en deze vervolgens te aggregeren, in plaats van te vertrouwen op een enkel antwoord.
177,33K
Boven
Positie
Favorieten