Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jännittävä uusi kurssi: Hienosäätö ja vahvistusoppiminen LLM:ille: Johdatus jälkikoulutukseen, jota opettaa @realSharonZhou, @AMD:n tekoälyjohtaja. Saatavilla nyt osoitteessa .
Jälkikoulutus on keskeinen tekniikka, jota frontier labs käyttää muuttaakseen perus-LLM:n – mallin, joka on koulutettu massiiviseen merkitsemättömään tekstiin seuraavan sanan/tunnuksen ennustamiseksi – hyödylliseksi ja luotettavaksi avustajaksi, joka osaa noudattaa ohjeita. Olen myös nähnyt monia sovelluksia, joissa jälkikoulutus muuttaa vain 80 % ajasta toimivan demosovelluksen luotettavaksi järjestelmäksi, joka toimii jatkuvasti. Tämä kurssi opettaa sinulle tärkeimmät harjoituksen jälkeiset tekniikat!
Tällä 5 moduulin kurssilla Sharon opastaa sinut koko koulutuksen jälkeisen putken läpi: valvottu hienosäätö, palkitsemismallintaminen, RLHF ja tekniikat, kuten PPO ja GRPO. Opit myös käyttämään LoRA:ta tehokkaaseen koulutukseen ja suunnittelemaan evaleja, jotka havaitsevat ongelmat ennen käyttöönottoa ja sen jälkeen.
Taidot, joita saat:
- Soveltaa ohjattua hienosäätöä ja vahvistusoppimista (RLHF, PPO, GRPO) mallien kohdistamiseksi haluttuun käyttäytymiseen
- Käytä LoRA:ta tehokkaaseen hienosäätöön kouluttamatta kokonaisia malleja uudelleen
- Valmistele tietoaineistoja ja luo synteettistä dataa koulutuksen jälkeistä käyttöä varten
- Ymmärrät, miten LLM-tuotantoputkia käytetään go/no-go-päätöspisteiden ja palautesilmukoiden avulla
Nämä edistyneet menetelmät eivät enää rajoitu eturintaman tekoälylaboratorioihin, ja voit nyt käyttää niitä omissa sovelluksissasi.
Lue täältä:
Johtavat
Rankkaus
Suosikit

