Avoimen lähdekoodin räjähtänyt kerrosmalli on tulossa näin pian? Annan teille varsinaisen testin juuri julkaistusta Qwen-Image-Layered -mallista, joka on suuri malli, joka voi jakaa kuvat eri kerroksiin, ja malli on hienosäädetty Qwen-Imagen pohjalta. Tällä kertaa testini kattaa mallin erikoiskohtaukset (juliste), ohjeiden noudattamistestin (määritä poistokohde), reunakäsittelyn (hiukset) ja raja-arvotestin (kaikki tarrat, yksi tarra voi irrottaa yli 50 kerrosta). Suoraan johtopäätökseen, ensinnäkin malli on liian suuri, koska tämä malli perustuu Qwen-Imageen, eli kyseessä on 20B-malli, käytin HuggingFace Zero -näytönohjainta testatakseni, jokainen suoritus kesti noin 2 minuuttia, malli pystyy tosiaan erottamaan kerroksia, ja reunan käsittely on erittäin hyvää, mutta vakaus täytyy optimoida. Testissäni 4 kerrosta voidaan tuottaa, mutta 8 tai 10 kerrosta räjähti, epäilen, että se on ylittänyt Zero GPU:n aikakatkaisun tai bugin ( Näytönohjain on H200, todennäköisesti videomuisti räjähtää), lähtökoko on vain 544*736, virallinen suosittelee myös 640 resoluutiota, tämäkin pitäisi parantaa, ja malli on edelleen liian iso, 20B, toivon optimoivani seuraavan koon.