O modelo de decomposição de camadas de código aberto chegou tão rápido? Trago-vos os testes do modelo Qwen-Image-Layered, que a Alibaba acabou de lançar. Este é um grande modelo que pode dividir imagens em diferentes camadas, sendo baseado no Qwen-Image. Os meus testes cobrem os cenários em que este modelo se destaca (cartazes), testes de conformidade de instruções (extração de alvos específicos), processamento de bordas (cabelos) e testes extremos (tudo são adesivos; se cada adesivo for uma camada, pode-se extrair mais de 50 camadas). Diretamente ao ponto: primeiro, o modelo é muito grande. Como este modelo é baseado no Qwen-Image, é um modelo de 20B. Eu testei com o HuggingFace Zero GPU, e cada execução leva cerca de 2 minutos. O modelo realmente consegue separar camadas, e o processamento de bordas é bastante bom, mas a estabilidade precisa de otimização. Nos meus testes, consegui extrair 4 camadas, mas 8 ou 10 camadas falharam, suspeito que pode ter ultrapassado o tempo limite do Zero GPU ou um bug (a GPU é H200, não é provável que tenha esgotado a memória). O tamanho de saída é apenas 544*736, e o oficial também recomenda uma resolução de 640, este ponto também precisa ser melhorado, e o modelo ainda é muito grande, 20B, espero que consigam otimizar o tamanho.