Ist das Open-Source-Modell zur Schichtung von Bildern so schnell gekommen? Ich präsentiere euch die neuesten Testergebnisse des gerade veröffentlichten Qwen-Image-Layered-Modells von Alibaba. Dies ist ein großes Modell, das Bilder in verschiedene Schichten unterteilen kann und auf Qwen-Image feinjustiert wurde. Mein Test deckt die Stärken dieses Modells ab (Plakate), die Befolgung von Anweisungen (spezifische Zielentnahme), die Kantenbearbeitung (Haare) und Extremtests (alles sind Aufkleber; wenn jeder Aufkleber eine Schicht ist, können über 50 Schichten extrahiert werden). Um es direkt zu sagen: Zunächst ist das Modell einfach zu groß. Da dieses Modell auf Qwen-Image basiert, handelt es sich um ein 20B-Modell. Ich habe es mit HuggingFace Zero GPU getestet, und jede Ausführung dauert etwa 2 Minuten. Das Modell kann tatsächlich Schichten trennen, und die Kantenbearbeitung ist ziemlich gut, aber die Stabilität muss optimiert werden. In meinem Test konnten 4 Schichten ausgegeben werden, aber bei 8 oder 10 Schichten ist es abgestürzt. Ich vermute, dass es möglicherweise die Zero GPU-Zeitüberschreitung oder einen Bug gibt (die GPU ist H200, es ist also unwahrscheinlich, dass der Grafikspeicher überlastet ist). Die Ausgabedimension beträgt nur 544*736, und die offizielle Empfehlung liegt bei 640 Auflösung. Auch das muss verbessert werden, und das Modell ist immer noch zu groß, 20B. Ich hoffe, die Größe kann optimiert werden.