Mô hình phân tách lớp mã nguồn mở đã đến nhanh như vậy sao? Mang đến cho mọi người bài kiểm tra thực tế của mô hình Qwen-Image-Layered vừa được Alibaba phát hành, đây là một mô hình lớn có thể chia hình ảnh thành các lớp khác nhau, mô hình này được tinh chỉnh dựa trên Qwen-Image. Bài kiểm tra của tôi lần này bao gồm các tình huống mà mô hình này mạnh (áp phích), kiểm tra tuân thủ hướng dẫn (chỉ định mục tiêu trích xuất), xử lý biên (tóc), và kiểm tra giới hạn (toàn bộ là nhãn dán, nếu mỗi nhãn dán là một lớp thì có thể trích xuất hơn 50 lớp). Nói thẳng vào kết luận, trước tiên mô hình vẫn quá lớn, vì mô hình này dựa trên Qwen-Image nên là một mô hình 20B, tôi đã thử nghiệm bằng HuggingFace Zero GPU, mỗi lần chạy khoảng 2 phút, mô hình thực sự có thể tách lớp, và xử lý biên khá tốt, nhưng độ ổn định cần được tối ưu hóa, trong bài kiểm tra của tôi có thể xuất ra 4 lớp, nhưng 8 hoặc 10 lớp thì bị lỗi, nghi ngờ có thể là do vượt quá thời gian chờ của Zero GPU hoặc lỗi (GPU là H200, không thể nào hết bộ nhớ đồ họa), kích thước đầu ra chỉ có 544*736, chính thức cũng khuyến nghị độ phân giải 640, điều này cũng cần được cải thiện, và mô hình vẫn quá lớn, 20B, hy vọng có thể tối ưu hóa kích thước.