DeepSeek-OCR neden bu kadar BÜYÜK BİR ANLAŞMA? Mevcut LLM'ler uzun girdilerle mücadele ediyor çünkü yalnızca bağlam penceresi olarak bilinen sabit sayıda tokenı işleyebiliyorlar ve girdiler uzadıkça dikkat maliyeti hızla artıyor. DeepSeek-OCR yeni bir yaklaşım benimsiyor. Uzun bağlamı doğrudan bir LLM'ye göndermek yerine, onu bir görüntüye dönüştürür, bu görüntüyü görsel belirteçlere sıkıştırır ve ardından bu belirteçleri LLM'ye iletir. Daha az belirteç, dikkatten kaynaklanan daha düşük hesaplama maliyetine ve daha geniş bir etkili bağlam penceresine yol açar. Bu, sohbet robotlarını ve belge modellerini daha yetenekli ve verimli hale getirir. DeepSeek-OCR nasıl oluşturulur? Sistemin iki ana bölümü vardır: 1. Kodlayıcı: Bir metin görüntüsünü işler, görsel özellikleri çıkarır ve bunları az sayıda görüntü belirtecine sıkıştırır. 2. Kod Çözücü: Standart bir yalnızca kod çözücü dönüştürücüsüne benzer şekilde, bu belirteçleri okuyan ve her seferinde bir belirteç metin üreten bir Uzmanlar Karışımı dil modeli. Ne zaman kullanılır? DeepSeek-OCR, metnin görsel temsiller kullanılarak verimli bir şekilde sıkıştırılabileceğini gösterir. Özellikle standart bağlam sınırlarını aşan çok uzun belgelerin işlenmesinde kullanışlıdır. Bağlam sıkıştırma, standart OCR görevleri veya tabloları ve karmaşık düzenleri metne dönüştürmek gibi derin ayrıştırma için kullanabilirsiniz. Size göre: LLM'lerde uzun bağlamlı sorunları çözmek için görsel belirteçlerin kullanılması hakkında ne düşünüyorsunuz? Bu, büyük modeller için bir sonraki standart olabilir mi? -- Kısa süre önce başlattık Yapay Zeka Mühendisi Olun | Yaparak Öğrenin: Grup 2. Takım 1'i kaçırdıysanız, şimdi Takım 2 için bize katılma şansınız var. Buradan kontrol edin: #AI #AIEngineer #MachineLearning...