O modelo de camada explosiva de código aberto está chegando tão cedo? Deixe-me apresentar o teste real do modelo Qwen-Image-Layered recém-lançado pela Alibaba, que é um modelo grande capaz de dividir imagens em diferentes camadas, e o modelo é ajustado com base no Qwen-Image. Desta vez, meu teste cobre as cenas especiais do modelo (pôster), teste de conformidade de instruções (especificar o alvo de extração), processamento de borda (cabelo) e teste de limite (todos os adesivos, um adesivo pode extrair mais de 50 camadas). Diretamente para a conclusão, primeiro de tudo, o modelo é grande demais, porque esse modelo é baseado no Qwen-Image, então é um modelo 20B, usei a GPU HuggingFace Zero para testar, cada rodada dura cerca de 2 minutos, o modelo realmente pode separar camadas, e o processamento de bordas é muito bom, mas a estabilidade precisa ser otimizada, no meu teste podem ser saídas 4 camadas, mas 8 ou 10 camadas explodiram, suspeito que pode ter ultrapassado o timeout ou bug da GPU zero ( GPU é H200, dificilmente explodirá a memória de vídeo), o tamanho de saída é apenas 544*736, o oficial também recomenda resolução 640, isso também precisa ser melhorado, e o modelo ainda é grande demais, 20B, espero otimizar o próximo tamanho.