トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
オープンソースの爆発レイヤーモデルがそんなに早く登場するのですか?
アリババが最近リリースしたQwen画像レイヤードモデルの実際のテストをお見せします。これは画像を異なる層に分割できる大規模なモデルで、Qwen画像に基づいて微調整されています。
今回のテストでは、モデルの専門シーン(ポスター)、指示遵守テスト(抽出ターゲットを指定する)、エッジ処理(髪の毛)、リミットテスト(すべてのステッカーで50層以上抽出可能)をカバーしています。
結論から言うと、まずモデルが大きすぎます。なぜならこのモデルはQwen-Imageに基づいているため、20Bモデルです。HuggingFace Zero GPUを使ってテストしました。1回約2分間実行し、モデルは確かにレイヤーを分離でき、エッジ処理も非常に良好ですが、安定性の最適化が必要です。私のテストでは4層出力可能でしたが、8層か10層が爆発的に発生し、Zero GPUのタイムアウトやバグを超えた可能性があります( GPUはH200で、ビデオメモリが爆発する可能性は低いです。出力サイズは544×736で、公式では640解像度も推奨されていますが、これも改善が必要です。モデルはまだ大きすぎて20Bです。次のサイズを最適化したいと思っています。
トップ
ランキング
お気に入り
