Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un nou curs interesant: Fine-tuning and Reinforcement Learning for LLM: Intro to Post-training, predat de @realSharonZhou, VP of AI la @AMD. Disponibil acum la .
Post-antrenamentul este tehnica cheie folosită de laboratoarele de frontieră pentru a transforma un LLM de bază - un model antrenat pe text masiv neetichetat pentru a prezice următorul cuvânt / token - într-un asistent util și de încredere care poate urma instrucțiunile. Am văzut, de asemenea, multe aplicații în care post-antrenamentul este ceea ce transformă o aplicație demo care funcționează doar 80% din timp într-un sistem fiabil care funcționează în mod constant. Acest curs vă va învăța cele mai importante tehnici post-antrenament!
În acest curs de 5 module, Sharon vă ghidează prin conducta completă post-instruire: reglare fină supravegheată, modelare a recompenselor, RLHF și tehnici precum PPO și GRPO. De asemenea, veți învăța să utilizați LoRA pentru o instruire eficientă și să proiectați evaluări care detectează problemele înainte și după implementare.
Abilități pe care le veți dobândi:
- Aplicați reglarea supervizată și învățarea prin întărire (RLHF, PPO, GRPO) pentru a alinia modelele la comportamentele dorite
- Utilizați LoRA pentru reglare fină eficientă fără a reinstrui modele întregi
- Pregătiți seturi de date și generați date sintetice pentru post-antrenament
- Înțelegeți cum să operați conductele de producție LLM, cu puncte de decizie go/no-go și bucle de feedback
Aceste metode avansate nu se mai limitează la laboratoarele AI de frontieră și acum le puteți folosi în propriile aplicații.
Aflați aici:
Limită superioară
Clasament
Favorite

