Một khóa học mới thú vị: Tinh chỉnh và Học Tăng cường cho LLMs: Giới thiệu về Đào tạo sau, do @realSharonZhou, Phó Chủ tịch AI tại @AMD giảng dạy. Có sẵn ngay bây giờ tại . Đào tạo sau là kỹ thuật chính được các phòng thí nghiệm tiên tiến sử dụng để biến một LLM cơ bản - một mô hình được đào tạo trên một lượng lớn văn bản không gán nhãn để dự đoán từ/token tiếp theo - thành một trợ lý hữu ích, đáng tin cậy có thể tuân theo hướng dẫn. Tôi cũng đã thấy nhiều ứng dụng mà đào tạo sau là điều biến một ứng dụng demo chỉ hoạt động 80% thời gian thành một hệ thống đáng tin cậy hoạt động nhất quán. Khóa học này sẽ dạy bạn những kỹ thuật đào tạo sau quan trọng nhất! Trong khóa học 5 mô-đun này, Sharon sẽ hướng dẫn bạn qua toàn bộ quy trình đào tạo sau: tinh chỉnh có giám sát, mô hình thưởng, RLHF và các kỹ thuật như PPO và GRPO. Bạn cũng sẽ học cách sử dụng LoRA để đào tạo hiệu quả, và thiết kế các bài đánh giá để phát hiện vấn đề trước và sau khi triển khai. Kỹ năng bạn sẽ có được: - Áp dụng tinh chỉnh có giám sát và học tăng cường (RLHF, PPO, GRPO) để điều chỉnh các mô hình theo hành vi mong muốn - Sử dụng LoRA để tinh chỉnh hiệu quả mà không cần đào tạo lại toàn bộ mô hình - Chuẩn bị tập dữ liệu và tạo dữ liệu tổng hợp cho đào tạo sau - Hiểu cách vận hành các quy trình sản xuất LLM, với các điểm quyết định go/no-go và vòng phản hồi Những phương pháp tiên tiến này không còn giới hạn ở các phòng thí nghiệm AI tiên tiến nữa, và bạn giờ đây có thể sử dụng chúng trong các ứng dụng của riêng mình. Học ở đây: