Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek, O(L²) dikkat darboğazını çözdü.
Yeni V3.2 modelleri DeepSeek Sparse Attention (DSA) özelliğini sunuyor ve bu yaptıkları tek mimari değişiklik. Bu size bunun ne kadar önemli olduğunu gösteriyor.
Neyi çözer:
Standart dikkat kuadratik olarak ölçeklenir. Bağlam uzunluğunu iki katına çıkar, hesaplamayı dört katına çıkar. Bu yüzden uzun bağlamlı çıkarım hızlıca pahalı hale gelir.
DSA, karmaşıklığı O(L²)'den O(Lk)'ya düşürür, burada k sabittir.
Nasıl çalışıyor:
Hafif bir Lightning Indexer, her sorgu için hangi tokenların gerçekten önemli olduğunu puanlar. Az sayıda kafa, FP8'de çalışıyor, hesaplama açısından ucuz. Sonra bir seçim mekanizması yalnızca en üst-k anahtar değer girişlerini alır.
Önemli bilgi: bağlam uzunluğu ne olursa olsun, her sorgu için sadece 2.048 token seçiliyor. Pahalı dikkat hesaplaması bu küçük alt küme üzerinde gerçekleşir, tam 128K dizisi üzerinde değil.
Daha az ilgi, daha iyi sonuçlar. DeepSeek V3.2 bunu kanıtladı.
Sonuçlar:
128K bağlamda, ön doldurma maliyetleri milyon token başına ~$0.65'ten ~$0.35'e düşer. Kod çözme ~$2.4'ten ~$0.8'e düşüyor.
Peki performans? Aynı kalıyor. Bazı uzun bağlamlı benchmarklarda V3.2 aslında daha yüksek puan alıyor.
Az dikkat yeni bir şey değil. Kaliteyi kaybetmeden çalıştırmak zor.
DeepSeek, önce KL-divergens kullanarak indeksleyiciyi hizalayarak, ardından tam modeli seyrek desenlere uyarlayarak iki aşamalı bir eğitim süreciyle çözdü.
Maliyet ölçeklenmeden bağlamı ölçeklendirmenin yolu budur.
...

En İyiler
Sıralama
Takip Listesi

