Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vzrušující nový kurz: Jemné ladění a posilované učení pro LLM: Úvod do post-školení, vyučuje @realSharonZhou, viceprezident pro umělou inteligenci ve společnosti @AMD. Nyní k dispozici na adrese .
Post-trénink je klíčová technika, kterou používají hraniční laboratoře k přeměně základního LLM – modelu trénovaného na masivním neoznačeném textu, aby předpověděl další slovo/token – na užitečného a spolehlivého asistenta, který dokáže sledovat pokyny. Viděl jsem také mnoho aplikací, kde post-trénink je to, co promění demo aplikaci, která funguje pouze 80 % času, na spolehlivý systém, který funguje konzistentně. Tento kurz vás naučí nejdůležitější techniky po tréninku!
V tomto kurzu o 5 modulech vás Sharon provede celým procesem po školení: dolaďování pod dohledem, modelování odměn, RLHF a techniky jako PPO a GRPO. Naučíte se také používat LoRA pro efektivní školení a navrhovat vyhodnocení, která zachycují problémy před nasazením i po něm.
Dovednosti, které získáte:
- Aplikujte jemné ladění pod dohledem a zpětnovazební učení (RLHF, PPO, GRPO) k zarovnání modelů s požadovaným chováním
- Použití LoRA pro efektivní jemné doladění bez nutnosti přetrénování celých modelů
- Příprava datových sad a generování syntetických dat pro post-trénink
- Pochopte, jak provozovat produkční řetězce LLM s rozhodovacími body go/no-go a zpětnovazebními smyčkami
Tyto pokročilé metody se již neomezují pouze na hraniční laboratoře umělé inteligence a nyní je můžete používat ve svých vlastních aplikacích.
Dozvíte se zde:
Top
Hodnocení
Oblíbené

