Un nou curs interesant: Fine-tuning and Reinforcement Learning for LLM: Intro to Post-training, predat de @realSharonZhou, VP of AI la @AMD. Disponibil acum la . Post-antrenamentul este tehnica cheie folosită de laboratoarele de frontieră pentru a transforma un LLM de bază - un model antrenat pe text masiv neetichetat pentru a prezice următorul cuvânt / token - într-un asistent util și de încredere care poate urma instrucțiunile. Am văzut, de asemenea, multe aplicații în care post-antrenamentul este ceea ce transformă o aplicație demo care funcționează doar 80% din timp într-un sistem fiabil care funcționează în mod constant. Acest curs vă va învăța cele mai importante tehnici post-antrenament! În acest curs de 5 module, Sharon vă ghidează prin conducta completă post-instruire: reglare fină supravegheată, modelare a recompenselor, RLHF și tehnici precum PPO și GRPO. De asemenea, veți învăța să utilizați LoRA pentru o instruire eficientă și să proiectați evaluări care detectează problemele înainte și după implementare. Abilități pe care le veți dobândi: - Aplicați reglarea supervizată și învățarea prin întărire (RLHF, PPO, GRPO) pentru a alinia modelele la comportamentele dorite - Utilizați LoRA pentru reglare fină eficientă fără a reinstrui modele întregi - Pregătiți seturi de date și generați date sintetice pentru post-antrenament - Înțelegeți cum să operați conductele de producție LLM, cu puncte de decizie go/no-go și bucle de feedback Aceste metode avansate nu se mai limitează la laboratoarele AI de frontieră și acum le puteți folosi în propriile aplicații. Aflați aici: