متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

أنت في مقابلة مهندس الذكاء الاصطناعي في OpenAI. يسأل المحاور: "نموذج GPT لدينا يولد 100 رمز في 42 ثانية. كيف تجعلها أسرع بخمس مرات؟" أنت: "سأخصص المزيد من وحدات معالجة الرسوميات لتوليد أسرع." انتهت المقابلة. إليك ما فاتك:

عنق الزجاجة الحقيقي ليس في الحوسبة، بل هو الحوسبة المتكررة. بدون تخزين مؤقت KV، يعيد نموذجك حساب المفاتيح والقيم لكل رمز، ويكرر العمل. - مع تخزين مؤقت للكهرباء → 9 ثوان - بدون تخزين مؤقت للكهول → 42 ثانية (~5 أضعاف) دعونا نغوص في فهم كيف يعمل!

لفهم التخزين المؤقت ل KV ، يجب أن نعرف كيف تقوم LLMs بإخراج الرموز المميزة. - ينتج المحول حالات مخفية لجميع الرموز المميزة. - يتم إسقاط الحالات المخفية على مساحة المفردات. - يتم استخدام سجلات الرمز المميز الأخير لإنشاء الرمز المميز التالي. - كرر مع الرموز المميزة اللاحقة. تحقق من هذا👇

وبالتالي ، لإنشاء رمز مميز جديد ، نحتاج فقط إلى الحالة المخفية لأحدث رمز مميز. لا يلزم وجود أي من الحالات المخفية الأخرى. بعد ذلك ، دعنا نرى كيف يتم حساب آخر حالة مخفية داخل طبقة المحول من آلية الانتباه.

أثناء الانتباه: يتضمن الصف الأخير من منتج مفتاح الاستعلام: - متجه الاستعلام الأخير. - جميع المتجهات الرئيسية. أيضا ، يتضمن الصف الأخير من نتيجة الانتباه النهائية ما يلي: - متجه الاستعلام الأخير. - جميع متجهات المفاتيح والقيمة. تحقق من هذه الصورة لفهم أفضل:

تشير البصيرة أعلاه إلى أنه لإنشاء رمز مميز جديد ، تحتاج كل عملية انتباه في الشبكة فقط: - متجه الاستعلام للرمز المميز الأخير. - جميع متجهات المفاتيح والقيمة. ولكن ، هناك رؤية رئيسية أخرى هنا.

بينما نقوم بإنشاء رموز جديدة: - لا تتغير متجهات KV المستخدمة لجميع الرموز المميزة السابقة. وبالتالي ، نحتاج فقط إلى إنشاء متجه KV للرمز المميز الذي تم إنشاؤه قبل خطوة واحدة. يمكن استرداد بقية متجهات KV من ذاكرة التخزين المؤقت لتوفير الحوسبة والوقت.

وهذا ما يسمى التخزين المؤقت KV! للتكرار ، بدلا من حساب متجهات KV بشكل متكرر لجميع رموز السياق المميزة ، قم بتخزينها مؤقتا. لإنشاء رمز مميز: - قم بإنشاء متجه QKV للرمز المميز الذي تم إنشاؤه قبل خطوة واحدة. - احصل على جميع متجهات KV الأخرى من ذاكرة التخزين المؤقت. - حساب الانتباه. تحقق من هذا👇

يقوم تخزين KV المؤقت بتسريع الاستدلال عن طريق حساب ذاكرة التخزين المؤقت KV الخاصة بالمطالبة قبل توليد الرموز. لهذا السبب بالضبط يستغرق ChatGPT وقتا أطول لتوليد الرمز الأول مقارنة بالبقية. يعرف هذا التأخير باسم الوقت إلى الرمز الأول (TTFT). تحسين TTFT موضوع ليوم آخر!

‏‎204‏

الأفضل

المُتصدِّرة

التطبيقات المفضلة