Ein spannender neuer Kurs: Feinabstimmung und Verstärkendes Lernen für LLMs: Einführung in das Post-Training, unterrichtet von @realSharonZhou, VP für KI bei @AMD. Jetzt verfügbar unter . Post-Training ist die Schlüsseltechnik, die von führenden Laboren verwendet wird, um ein Basis-LLM – ein Modell, das auf massiven, unbeschrifteten Texten trainiert wurde, um das nächste Wort/Token vorherzusagen – in einen hilfreichen, zuverlässigen Assistenten zu verwandeln, der Anweisungen befolgen kann. Ich habe auch viele Anwendungen gesehen, bei denen das Post-Training das, was eine Demoversion ist, die nur 80 % der Zeit funktioniert, in ein zuverlässiges System verwandelt, das konstant gute Leistungen erbringt. Dieser Kurs wird Ihnen die wichtigsten Post-Training-Techniken beibringen! In diesem 5-moduligen Kurs führt Sharon Sie durch die gesamte Post-Training-Pipeline: überwachte Feinabstimmung, Belohnungsmodellierung, RLHF und Techniken wie PPO und GRPO. Sie werden auch lernen, LoRA für effizientes Training zu verwenden und Evaluierungen zu entwerfen, die Probleme vor und nach der Bereitstellung erkennen. Fähigkeiten, die Sie erwerben werden: - Überwachte Feinabstimmung und Verstärkendes Lernen (RLHF, PPO, GRPO) anwenden, um Modelle an gewünschte Verhaltensweisen anzupassen - LoRA für effiziente Feinabstimmung ohne vollständiges Retraining von Modellen verwenden - Datensätze vorbereiten und synthetische Daten für das Post-Training generieren - Verstehen, wie man LLM-Produktionspipelines betreibt, mit Go/No-Go-Entscheidungspunkten und Feedbackschleifen Diese fortgeschrittenen Methoden sind nicht mehr nur auf führende KI-Labore beschränkt, und Sie können sie jetzt in Ihren eigenen Anwendungen verwenden. Hier lernen: