مكدس GPU الخاص بنا لكل من NVIDIA و AMD ، بصرف النظر عن الحد الأدنى من البرامج الثابتة الموقعة ، مفتوح المصدر بنسبة 100٪ و Python نقي باستثناء المترجم. لا يستخدم برامج تشغيل البائعين أو أطر العمل أو المكتبات. هذا هو السبب في أنه من السهل جدا جعله يعمل على جهاز Mac. بالنسبة للمترجمين ، على AMD ، نستخدم LLVM في المنبع ، وفي NVIDIA ، نستخدم مترجم NAK من مشروع MESA. نخطط لاستبدال المترجم ب tinygrad نقي في غضون عام أو عامين أيضا. مع دمج RANGEIFY ، تتطابق أغراضنا المنخفضة الآن مع أحدث ما توصلت إليه التكنولوجيا ، أسلوب TVM. نحن ندرس ThunderKittens و TileLang للسرعة على هذا المستوى ، ويجب أن تكون كل هذه الأشياء جاهزة في غضون 200 يوم لتاريخ استحقاق عقد تدريب AMD Llama 405B. نظرا لصغر حجم tinygrad وطبيعة Python النقية ، فهي أسهل مكتبة ML لإحراز تقدم فيها ، ويعرف أيضا باسم أسرع منحدر للتحسين. مع أسلوب Megakernel للجدولة ، وأسلوب MODeL_opt للتخطيط ، وأسلوب E-graph للرمزية ، يجب أن نتجاوز أحدث ما توصلت إليه التكنولوجيا في سرعة PyTorch و JAX. إذا فعلنا ذلك ، فإن خندق NVIDIA قد انتهي. إنها 1000 سطر على الأكثر لإضافة مسرع جديد إلى tinygrad. ولا أقصد إضافة مسرع جديد بمساعدة برنامج تشغيل kernel ومترجم ومكتبات. فقط 1000 سطر من البرامج للمسرع * الكامل * يتحدث مباشرة على أشرطة PCIe ، مثل ما تفعله tinygrad مع وحدات معالجة الرسومات NVIDIA و AMD الآن.
@geerlingguy أو في الواقع ، AMD أسهل. ما عليك سوى تثبيت برنامج التشغيل "extra / usbgpu / tbgpu" و AMD = 1
@geerlingguy أو في الواقع ، AMD أسهل. ما عليك سوى تثبيت برنامج التشغيل "extra / usbgpu / tbgpu" و AMD = 1. 0 خطط لدعم Intel على هذا المستوى.
‏‎54.29‏K