¿Ya ha llegado tan rápido el modelo de capas descompuestas de código abierto? Les traigo la prueba del modelo Qwen-Image-Layered que acaba de publicar Alibaba, este es un gran modelo que puede dividir imágenes en diferentes capas, el modelo está basado en el ajuste fino de Qwen-Image. En esta prueba, cubrí los escenarios en los que este modelo se destaca (carteles), pruebas de seguimiento de instrucciones (extracción de objetivos específicos), procesamiento de bordes (cabello) y pruebas extremas (si hay más de 50 capas, cada una con una pegatina). Para ir al grano, primero el modelo es demasiado grande, ya que este modelo se basa en Qwen-Image, por lo que es un modelo de 20B. Lo probé con HuggingFace Zero GPU, cada ejecución toma aproximadamente 2 minutos. El modelo realmente puede separar capas, y el procesamiento de bordes es bastante bueno, pero la estabilidad necesita optimización. En mi prueba, se pueden generar 4 capas, pero al intentar con 8 o 10 capas, se colapsa. Sospecho que podría ser un tiempo de espera o un error de Zero GPU (la GPU es H200, no debería haber problemas de memoria). El tamaño de salida es solo 544*736, y la oficial también recomienda una resolución de 640, este aspecto también necesita mejorar, y además el modelo sigue siendo demasiado grande, 20B, espero que se pueda optimizar el tamaño.