エキサイティングな新しいコース: LLM のための微調整と強化学習: ポストトレーニングの概要、@AMD の AI 担当副社長である @realSharonZhou が講師します。で現在入手可能です。 ポストトレーニングは、フロンティアラボがベース LLM (次の単語/トークンを予測するためにラベル付けされていない大量のテキストでトレーニングされたモデル) を、指示に従うことができる便利で信頼できるアシスタントに変えるために使用する重要な手法です。また、トレーニング後の方法で、80%しか動作しないデモアプリケーションを、一貫してパフォーマンスを発揮する信頼性の高いシステムに変えるアプリケーションも数多く見てきました。このコースでは、最も重要なトレーニング後のテクニックを学びます。 この 5 つのモジュールからなるコースでは、Sharon が教師ありの微調整、報酬モデリング、RLHF、PPO や GRPO などのテクニックなど、トレーニング後の完全なパイプラインについて説明します。また、効率的なトレーニングのために LoRA を使用し、デプロイの前後に問題をキャッチする評価を設計する方法も学習します。 獲得できるスキル: - 教師あり微調整と強化学習(RLHF、PPO、GRPO)を適用して、モデルを望ましい動作に合わせる - LoRAを使用して、モデル全体を再トレーニングすることなく効率的に微調整 - データセットを準備し、トレーニング後の合成データを生成します - LLM 本番パイプラインの運用方法、go/no-go の決定ポイントとフィードバック ループを理解する これらの高度な手法は、もはやフロンティアの AI ラボに限定されず、独自のアプリケーションで使用できるようになりました。 ここで学ぶ: