熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
開源分解圖層大模型這麼快就來了?
給大家帶來阿里剛剛發佈的 Qwen-Image-Layered 模型實測, 這是一個可以把圖片分成不同圖層的大模型, 模型是基於 Qwen-Image 微調的.
本次我的測試覆蓋這個模型的擅長場景(海報), 指令遵循測試(指定抽取目標), 邊緣處理(頭髮), 極限測試(全是貼紙, 一個貼紙一個圖層的話可以抽取50多個圖層).
直接說結論, 首先還是模型太大了, 因為這個模型基於 Qwen-Image 所以是個20B的模型, 我是用HuggingFace Zero GPU 測試, 每次運行大概2分鐘左右, 模型的確可以做到分離圖層, 而且邊緣處理很不錯, 不過穩定性有待優化, 在我測試中4個圖層可以輸出, 但是8個或者10個圖層就炸了, 懷疑可能是超過了Zero GPU超時或者bug (GPU是H200, 不太可能爆顯存), 輸出尺寸只有 544*736, 官方也推薦640分辨力, 這點也需要提升, 以及模型還是太大了, 20B, 希望能優化下尺寸.
熱門
排行
收藏
