Et spennende nytt kurs: Finjustering og forsterkende læring for LLM-er: Introduksjon til ettertrening, undervist av @realSharonZhou, VP for AI ved @AMD. Tilgjengelig nå på . Ettertrening er nøkkelteknikken som brukes av frontierlaboratorier for å gjøre en grunnleggende LLM – en modell trent på massiv umerket tekst for å forutsi neste ord/token – til en nyttig, pålitelig assistent som kan følge instruksjonene. Jeg har også sett mange applikasjoner der ettertrening er det som gjør en demoapplikasjon som bare fungerer 80 % av tiden til et pålitelig system som konsekvent yter. Dette kurset vil lære deg de viktigste teknikkene etter trening! I dette kurset med 5 moduler leder Sharon deg gjennom hele pipelinen etter trening: veiledet finjustering, belønningsmodellering, RLHF og teknikker som PPO og GRPO. Du vil også lære å bruke LoRA for effektiv trening, og å designe evalueringer som fanger opp problemer før og etter distribusjon. Ferdigheter du får: - Bruke overvåket finjustering og forsterkende læring (RLHF, PPO, GRPO) for å justere modeller til ønsket atferd - Bruk LoRA for effektiv finjustering uten å trene hele modeller på nytt - Forbered datasett og generer syntetiske data for ettertrening - Forstå hvordan man driver LLM-produksjonsrørledninger, med go/no-go beslutningspunkter og tilbakemeldingssløyfer Disse avanserte metodene er ikke lenger begrenset til grensebaserte AI-laboratorier, og du kan nå bruke dem i dine egne applikasjoner. Lær her: