オープンソースの爆発レイヤーモデルがそんなに早く登場するのですか? アリババが最近リリースしたQwen画像レイヤードモデルの実際のテストをお見せします。これは画像を異なる層に分割できる大規模なモデルで、Qwen画像に基づいて微調整されています。 今回のテストでは、モデルの専門シーン(ポスター)、指示遵守テスト(抽出ターゲットを指定する)、エッジ処理(髪の毛)、リミットテスト(すべてのステッカーで50層以上抽出可能)をカバーしています。 結論から言うと、まずモデルが大きすぎます。なぜならこのモデルはQwen-Imageに基づいているため、20Bモデルです。HuggingFace Zero GPUを使ってテストしました。1回約2分間実行し、モデルは確かにレイヤーを分離でき、エッジ処理も非常に良好ですが、安定性の最適化が必要です。私のテストでは4層出力可能でしたが、8層か10層が爆発的に発生し、Zero GPUのタイムアウトやバグを超えた可能性があります( GPUはH200で、ビデオメモリが爆発する可能性は低いです。出力サイズは544×736で、公式では640解像度も推奨されていますが、これも改善が必要です。モデルはまだ大きすぎて20Bです。次のサイズを最適化したいと思っています。