开源分解图层大模型这么快就来了? 给大家带来阿里刚刚发布的 Qwen-Image-Layered 模型实测, 这是一个可以把图片分成不同图层的大模型, 模型是基于 Qwen-Image 微调的. 本次我的测试覆盖这个模型的擅长场景(海报), 指令遵循测试(指定抽取目标), 边缘处理(头发), 极限测试(全是贴纸, 一个贴纸一个图层的话可以抽取50多个图层). 直接说结论, 首先还是模型太大了, 因为这个模型基于 Qwen-Image 所以是个20B的模型, 我是用HuggingFace Zero GPU 测试, 每次运行大概2分钟左右, 模型的确可以做到分离图层, 而且边缘处理很不错, 不过稳定性有待优化, 在我测试中4个图层可以输出, 但是8个或者10个图层就炸了, 怀疑可能是超过了Zero GPU超时或者bug (GPU是H200, 不太可能爆显存), 输出尺寸只有 544*736, 官方也推荐640分辨力, 这点也需要提升, 以及模型还是太大了, 20B, 希望能优化下尺寸.