Vzrušující nový kurz: Jemné ladění a posilované učení pro LLM: Úvod do post-školení, vyučuje @realSharonZhou, viceprezident pro umělou inteligenci ve společnosti @AMD. Nyní k dispozici na adrese . Post-trénink je klíčová technika, kterou používají hraniční laboratoře k přeměně základního LLM – modelu trénovaného na masivním neoznačeném textu, aby předpověděl další slovo/token – na užitečného a spolehlivého asistenta, který dokáže sledovat pokyny. Viděl jsem také mnoho aplikací, kde post-trénink je to, co promění demo aplikaci, která funguje pouze 80 % času, na spolehlivý systém, který funguje konzistentně. Tento kurz vás naučí nejdůležitější techniky po tréninku! V tomto kurzu o 5 modulech vás Sharon provede celým procesem po školení: dolaďování pod dohledem, modelování odměn, RLHF a techniky jako PPO a GRPO. Naučíte se také používat LoRA pro efektivní školení a navrhovat vyhodnocení, která zachycují problémy před nasazením i po něm. Dovednosti, které získáte: - Aplikujte jemné ladění pod dohledem a zpětnovazební učení (RLHF, PPO, GRPO) k zarovnání modelů s požadovaným chováním - Použití LoRA pro efektivní jemné doladění bez nutnosti přetrénování celých modelů - Příprava datových sad a generování syntetických dat pro post-trénink - Pochopte, jak provozovat produkční řetězce LLM s rozhodovacími body go/no-go a zpětnovazebními smyčkami Tyto pokročilé metody se již neomezují pouze na hraniční laboratoře umělé inteligence a nyní je můžete používat ve svých vlastních aplikacích. Dozvíte se zde: