Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bài viết thứ tư trong loạt bài "Thực hiện vLLM từ con số không", chúng ta sẽ chuyển sự chú ý đến một thành phần khác trong kiến trúc Transformer, có vẻ đơn giản nhưng lại rất quan trọng: RMSNorm (Chuẩn hóa căn bậc hai).
Trước tiên, hãy xem chuẩn hóa là gì. Giả sử bạn vừa thi xong kỳ thi cuối kỳ, điểm số của ba môn học đã có:
Toán: 120 điểm (điểm tối đa 150)
Tiếng Anh: 80 điểm (điểm tối đa 100)
Vật lý: 160 điểm (điểm tối đa 200)
Môn nào có điểm cao nhất? Nếu bạn so sánh trực tiếp 120, 80, 160, bạn sẽ kết luận rằng Vật lý là môn tốt nhất. Nhưng thực tế là: cả ba môn đều có kết quả giống nhau.
Toán: 120/150 = 80%
Tiếng Anh: 80/100 = 80%
Vật lý: 160/200 = 80%
Đây là ý tưởng cốt lõi của chuẩn hóa: chuyển đổi dữ liệu có các đơn vị và phạm vi khác nhau về một tiêu chuẩn thống nhất để so sánh.
Tại sao mạng nơ-ron cần chuẩn hóa?
Hãy tưởng tượng bạn đang chơi trò chơi truyền tin. Người đầu tiên nói "Tôi thích táo", đến người thứ mười lại thành "Tôi thích dứa". Đây là vấn đề mà mạng nơ-ron sâu phải đối mặt.
Mỗi lớp mạng sẽ thực hiện một số tính toán trên đầu vào, sau đó truyền kết quả cho lớp tiếp theo. Vấn đề là, khi số lượng lớp tăng lên, các giá trị này sẽ trở nên ngày càng không thể kiểm soát - hoặc tăng vọt, hoặc biến mất không dấu vết. Giống như trò chơi truyền tin, thông tin dần bị méo mó trong quá trình truyền tải.
Việc thêm các lớp chuẩn hóa vào mô hình có thể giảm xác suất xảy ra hiện tượng bùng nổ hoặc biến mất của gradient, làm cho quá trình huấn luyện mô hình trở nên ổn định hơn. Kỹ thuật chuẩn hóa đã tiến hóa từ BatchNorm ban đầu đến LayerNorm, và cuối cùng là RMSNorm, trở thành tiêu chuẩn cho các mô hình lớn.
Bài viết của tôi sẽ đưa mọi người vào lịch sử tiến hóa của công nghệ chuẩn hóa, những ai quan tâm có thể xem nguyên bản.


Hàng đầu
Thứ hạng
Yêu thích

