المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
أنا أحب ورقة DeepSeek-OCR الجديدة. إنه نموذج OCR جيد (ربما أسوأ قليلا من النقاط) ، ونعم جمع البيانات وما إلى ذلك ، ولكن على أي حال لا يهم.
الجزء الأكثر إثارة للاهتمام بالنسبة لي (خاصة كرؤية حاسوبية في القلب يتنكر مؤقتا في زي شخص لغة طبيعية) هو ما إذا كانت وحدات البكسل هي مدخلات أفضل ل LLMs من النص. ما إذا كانت الرموز المميزة النصية مهدرة وفظيعة ، عند الإدخال.
ربما يكون من المنطقي أن تكون جميع مدخلات LLMs صورا فقط. حتى إذا كان لديك إدخال نص خالص ، فربما تفضل تقديمه ثم إدخاله في:
- ضغط المزيد من المعلومات (انظر الورقة) = > نوافذ سياق أقصر ، وكفاءة أكبر
- دفق معلومات أكثر عمومية بشكل ملحوظ = > ليس فقط نصا ، ولكن على سبيل المثال نص غامق ونص ملون وصور عشوائية.
- يمكن الآن معالجة المدخلات بانتباه ثنائي الاتجاه بسهولة وكإعداد افتراضي ، وليس انتباه ذاتي الانحدار - أقوى بكثير.
- حذف الرمز المميز (عند الإدخال) !! لقد صرخت بالفعل حول مدى عدم إعجابي بالرمز المميز. الرموز القبيحة ومنفصلة وليست مرحلة شاملة. إنه "يستورد" كل قبح Unicode ، وترميزات البايت ، ويرث الكثير من الأمتعة التاريخية ، ومخاطر الأمان / كسر الحماية (مثل بايت الاستمرار). إنه يجعل شخصيتين تبدوان متطابقين مع العين يبدوان كرمزين مختلفين تماما داخليا في الشبكة. يبدو الرمز التعبيري المبتسم وكأنه رمز غريب ، وليس ... وجه مبتسم حقيقي ، بكسل وكل شيء ، وكل تعلم النقل الذي يجلبه. يجب أن يذهب الرمز المميز.
التعرف الضوئي على الحروف هو مجرد واحد من العديد من مهام الرؤية المفيدة > النص. ويمكن جعل مهام النص > النصية مهام الرؤية > النصية. ليس العكس.
الكثير من رسائل المستخدم عبارة عن صور ، لكن وحدة فك التشفير (استجابة المساعد) تظل نصية. من غير الواضح بكثير كيفية إخراج وحدات البكسل بشكل واقعي ... أو إذا كنت ترغب في ذلك.
الآن يجب أن أحارب أيضا الرغبة في البحث عن نسخة إدخال الصور فقط من nanochat ...
الأفضل
المُتصدِّرة
التطبيقات المفضلة