ميتا وغيرها تطلق طريقة تسريع BLT، وتقليل عرض النطاق الترددي للذاكرة بنسبة تصل إلى 92٪

رسالة AIMPACT، 12 مايو (التوقيت العالمي +8)، أطلقت فرق البحث في Meta، جامعة ستانفورد، وجامعة واشنطن مؤخرًا ثلاث طرق جديدة، تسرع بشكل ملحوظ سرعة استنتاج نموذج اللغة Byte Latent Transformer (BLT). يعد BLT نموذج لغة يعمل مباشرة على البايتات الأصلية، ويقوم بتقسيم البايتات ديناميكيًا إلى رقع ذات طول متغير باستخدام استراتيجية تقسيم تعتمد على الإنتروبيا، مما يتوافق مع أداء نماذج التقسيم إلى كلمات. نظرًا لأن فك التشفير التلقائي لكل بايت يتطلب تمريرات أمامية متعددة، فإن عرض النطاق الترددي للذاكرة يصبح عنق الزجاجة الرئيسي. الطرق الثلاثة للتسريع هي:
يستخدم BLT-D الانتشار المنفصل المجزأ، ويجمع بين تدريب توقع البايت التالي وتوقع البايت المقنع، حيث يتم إنشاء عدة بايتات في كل تمريرة أمامية، وعند حجم الكتلة 4، يكون عرض النطاق الترددي للذاكرة أقل من نصف BLT، وعند حجم الكتلة 16، ينخفض بنسبة 87-92٪؛
يستخدم BLT-S وحدة فك تشفير محمولة خفيفة كمسودة تكهن، دون الحاجة إلى تدريب إضافي، ويعطي نتائج مطابقة تمامًا لـ BLT القياسي عند التشفير الجشع، مما يحقق تقليل بنسبة 77٪ في عرض النطاق الترددي للذاكرة؛
يجمع BLT-DV بين مسودة الانتشار والتحقق التلقائي، ويمكن استخدام نفس أوزان النموذج بشكل ثنائي، مما يقلل من عرض النطاق الترددي للذاكرة بنسبة 81٪.
جميع الطرق تستفيد بشكل كبير في مهام الترجمة، وتكون مهام الترميز حساسة بشكل أكبر لحجم الكتلة. في اختبارات المعيار المستندة إلى الاحتمالية مثل ARC-Easy، ARC-Challenge، PIQA، HellaSwag، و MMLU، يقترب أداء BLT-D من خط الأساس BLT، مع الحفاظ على قدرة استنتاج مستقرة.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت