أصدرت DeepSeek للتو ورقة جديدة صادمة جدا. لقد دفنوا حقا lede هنا من خلال الإشارة إليه ببساطة باسم DeepSeek OCR. على الرغم من أنه نموذج OCR قوي جدا ، إلا أن الغرض منه والآثار المترتبة على نهجهم يتجاوز بكثير ما تتوقعه من "نموذج OCR آخر". تقليديا ، بدت رموز رؤية LLM وكأنها فكرة متأخرة أو "مسمار" لنموذج LLM. وستشغل 10 آلاف كلمة من اللغة الإنجليزية مساحة أكبر بكثير في LLM متعدد الوسائط عند التعبير عنها كوحدات بكسل مفهومة مقارنة بالتعبير عنها كرموز مميزة. لذلك قد تكون هذه الكلمات البالغ عددها 10 آلاف كلمة قد تحولت إلى 15 ألف رمز ، أو 30 ألفا إلى 60 ألفا من "الرموز المرئية". لذا كانت رموز الرؤية أقل كفاءة وكان من المنطقي استخدامها فقط للبيانات التي لا يمكن نقلها بشكل فعال بالكلمات. لكن هذا ينعكس الآن من الأفكار الواردة في هذه الورقة. اكتشفت DeepSeek كيفية الحصول على ضغط أفضل 10 مرات باستخدام رموز الرؤية مقارنة بالرموز المميزة النصية! لذلك يمكنك نظريا تخزين تلك الكلمات البالغ عددها 10 آلاف في 1,500 فقط من الرموز المرئية المضغوطة الخاصة بهم. قد لا يكون هذا غير متوقع كما يبدو إذا كنت تفكر في كيفية عمل عقلك. بعد كل شيء ، أعلم أنه عندما أبحث عن جزء من كتاب قرأته بالفعل ، أتخيله بصريا وأتذكر دائما أي جانب من الكتاب كان عليه وأين كان تقريبا على الصفحة ، مما يشير إلى نوع من تمثيل الذاكرة المرئية في العمل. الآن ، ليس من الواضح بالضبط كيف يتفاعل هذا مع الأداء المعرفي النهائي الآخر ل LLM. هل يمكن للنموذج أن يفكر بذكاء في تلك الرموز المرئية المضغوطة كما يمكن باستخدام الرموز المميزة للنص العادي؟ هل يجعل النموذج أقل وضوحا من خلال إجباره على طريقة أكثر توجها نحو الرؤية؟ ولكن يمكنك أن تتخيل أنه ، اعتمادا على المقايضات الدقيقة ، يمكن أن يكون محورا جديدا مثيرا للغاية لتوسيع أحجام السياق الفعالة بشكل كبير. خاصة عند دمجها مع ورقة DeepSeek الحديثة الأخرى التي تم إصدارها قبل أسبوعين حول الاهتمام المتناثر. لكل ما نعرفه ، كان بإمكان Google بالفعل اكتشاف شيء من هذا القبيل ، والذي يمكن أن يفسر سبب امتلاك Gemini لمثل هذا الحجم الضخم للسياق وهو جيد جدا وسريع في مهام التعرف الضوئي على الحروف. إذا فعلوا ذلك ، فربما لن يقولوا لأنه سينظر إليه على أنه سر تجاري مهم. لكن الشيء الجميل في DeepSeek هو أنهم جعلوا كل شيء مفتوح المصدر وأوزانا مفتوحة وأوضحوا كيف فعلوا ذلك ، لذلك يمكن للجميع الآن تجربته واستكشافه. حتى لو جعلت هذه الحيل الانتباه أكثر خسارة ، فإن إمكانية الحصول على LLM حدودي مع نافذة سياق 10 أو 20 مليون رمز مميز أمر مثير للغاية. يمكنك بشكل أساسي حشر جميع المستندات الداخلية الرئيسية للشركة في ديباجة سريعة وتخزينها مؤقتا باستخدام OpenAI ثم إضافة استفسارك المحدد أو مطالبتك فوق ذلك وعدم الاضطرار إلى التعامل مع أدوات البحث ولا تزال سريعة وفعالة من حيث التكلفة. أو ضع قاعدة تعليمات برمجية كاملة في السياق وقم بتخزينها مؤقتا ، ثم استمر في إلحاق ما يعادل git diffs أثناء إجراء تغييرات على الكود. إذا كنت قد قرأت قصصا عن الفيزيائي العظيم هانز بيث ، فقد كان معروفا بحفظ كميات هائلة من الحقائق الفيزيائية العشوائية (مثل الجدول الدوري بأكمله ؛ نقاط غليان مواد مختلفة ، وما إلى ذلك) حتى يتمكن من التفكير والحساب بسلاسة دون الحاجة إلى مقاطعة تدفقه للبحث عن شيء ما في جدول مرجعي. يعد امتلاك كميات هائلة من المعرفة الخاصة بالمهمة في ذاكرتك العاملة أمرا مفيدا للغاية. يبدو هذا وكأنه نهج ذكي ومضاف للغاية لتوسيع بنك الذاكرة هذا بمقدار 10 أضعاف أو أكثر.
فيما يلي بعض الوجبات السريعة الجيدة من Claude Opus4.1 على الورقة إذا كنت لا ترغب في قراءة كل شيء (إنه أيضا تقني جدا):
الأشياء المتعلقة بكيفية "ضغط" ذاكرة السياق القديمة بطريقة ضائعة عن طريق تقليص التمثيلات المرئية لتلك الرموز تلقائيا (على سبيل المثال ، من 1024 × 1024 بكسل إلى 512 × 512 بكسل) لتوفير المساحة عن طريق جعل تلك الذكريات "ضبابية" تتحدث مباشرة عما كان يدافع عنه @karpathy في مقابلته مع Dwarkesh حول جعل LLMs أقل اعتمادا على الحفظ الدقيق. وبالطبع ، هذا يعكس كيف يعمل العقل البشري بشكل أفضل أيضا.
‏‎163.09‏K