Jännittävä uusi kurssi: Hienosäätö ja vahvistusoppiminen LLM:ille: Johdatus jälkikoulutukseen, jota opettaa @realSharonZhou, @AMD:n tekoälyjohtaja. Saatavilla nyt osoitteessa . Jälkikoulutus on keskeinen tekniikka, jota frontier labs käyttää muuttaakseen perus-LLM:n – mallin, joka on koulutettu massiiviseen merkitsemättömään tekstiin seuraavan sanan/tunnuksen ennustamiseksi – hyödylliseksi ja luotettavaksi avustajaksi, joka osaa noudattaa ohjeita. Olen myös nähnyt monia sovelluksia, joissa jälkikoulutus muuttaa vain 80 % ajasta toimivan demosovelluksen luotettavaksi järjestelmäksi, joka toimii jatkuvasti. Tämä kurssi opettaa sinulle tärkeimmät harjoituksen jälkeiset tekniikat! Tällä 5 moduulin kurssilla Sharon opastaa sinut koko koulutuksen jälkeisen putken läpi: valvottu hienosäätö, palkitsemismallintaminen, RLHF ja tekniikat, kuten PPO ja GRPO. Opit myös käyttämään LoRA:ta tehokkaaseen koulutukseen ja suunnittelemaan evaleja, jotka havaitsevat ongelmat ennen käyttöönottoa ja sen jälkeen. Taidot, joita saat: - Soveltaa ohjattua hienosäätöä ja vahvistusoppimista (RLHF, PPO, GRPO) mallien kohdistamiseksi haluttuun käyttäytymiseen - Käytä LoRA:ta tehokkaaseen hienosäätöön kouluttamatta kokonaisia malleja uudelleen - Valmistele tietoaineistoja ja luo synteettistä dataa koulutuksen jälkeistä käyttöä varten - Ymmärrät, miten LLM-tuotantoputkia käytetään go/no-go-päätöspisteiden ja palautesilmukoiden avulla Nämä edistyneet menetelmät eivät enää rajoitu eturintaman tekoälylaboratorioihin, ja voit nyt käyttää niitä omissa sovelluksissasi. Lue täältä: