Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ist das Open-Source-Modell zur Schichtung von Bildern so schnell gekommen?
Ich präsentiere euch die neuesten Testergebnisse des gerade veröffentlichten Qwen-Image-Layered-Modells von Alibaba. Dies ist ein großes Modell, das Bilder in verschiedene Schichten unterteilen kann und auf Qwen-Image feinjustiert wurde.
Mein Test deckt die Stärken dieses Modells ab (Plakate), die Befolgung von Anweisungen (spezifische Zielentnahme), die Kantenbearbeitung (Haare) und Extremtests (alles sind Aufkleber; wenn jeder Aufkleber eine Schicht ist, können über 50 Schichten extrahiert werden).
Um es direkt zu sagen: Zunächst ist das Modell einfach zu groß. Da dieses Modell auf Qwen-Image basiert, handelt es sich um ein 20B-Modell. Ich habe es mit HuggingFace Zero GPU getestet, und jede Ausführung dauert etwa 2 Minuten. Das Modell kann tatsächlich Schichten trennen, und die Kantenbearbeitung ist ziemlich gut, aber die Stabilität muss optimiert werden. In meinem Test konnten 4 Schichten ausgegeben werden, aber bei 8 oder 10 Schichten ist es abgestürzt. Ich vermute, dass es möglicherweise die Zero GPU-Zeitüberschreitung oder einen Bug gibt (die GPU ist H200, es ist also unwahrscheinlich, dass der Grafikspeicher überlastet ist). Die Ausgabedimension beträgt nur 544*736, und die offizielle Empfehlung liegt bei 640 Auflösung. Auch das muss verbessert werden, und das Modell ist immer noch zu groß, 20B. Ich hoffe, die Größe kann optimiert werden.
Top
Ranking
Favoriten
