Le modèle de décomposition d'images open source est arrivé si rapidement ? Je vous présente les tests du modèle Qwen-Image-Layered récemment publié par Alibaba. C'est un grand modèle capable de décomposer une image en différentes couches, basé sur le modèle Qwen-Image. Mes tests couvrent les scénarios où ce modèle excelle (affiches), les tests de conformité des instructions (extraction ciblée), le traitement des bords (cheveux), et les tests extrêmes (tout en autocollants, un autocollant par couche, il est possible d'extraire plus de 50 couches). Pour aller droit au but, tout d'abord, le modèle est vraiment trop grand. Étant donné que ce modèle est basé sur Qwen-Image, c'est un modèle de 20B. J'ai testé avec HuggingFace Zero GPU, chaque exécution prend environ 2 minutes. Le modèle peut effectivement séparer les couches, et le traitement des bords est assez bon, mais la stabilité doit être améliorée. Dans mes tests, 4 couches peuvent être sorties, mais 8 ou 10 couches font planter le système. Je soupçonne que cela pourrait être dû à un dépassement du temps d'attente de Zero GPU ou à un bug (la GPU est un H200, il est peu probable qu'il y ait un dépassement de mémoire vidéo). La taille de sortie est seulement de 544*736, et l'officiel recommande également une résolution de 640, ce point doit également être amélioré, et le modèle est encore trop grand, 20B, j'espère qu'il pourra être optimisé.