يمكننا الآن تدريب الشبكات العصبية الكبيرة على الأجهزة الصغيرة
طريقة جديدة لحفظ البيانات الخاصة
يظهر هذا التصميم الفني كيف يمكن للأجهزة الصغيرة قريبًا أن تعالج البيانات التي تجمعها بنفسها، دون الحاجة إلى إرسالها إلى جهاز كمبيوتر أو خادم خارجي. سيسمح هذا للأجهزة بالتعلم بشكل أسرع وأكثراستقلالية، مما سيؤدي إلى تحسين أداء العديد من التطبيقات.
تتعلم الأدوات الموجودة من حولنا باستمرار عن حياتنا. تلتقط الساعات الذكية علاماتنا الحيوية لتتبع صحتنا، وتستمع مكبرات الصوت المنزلية إلى محادثاتنا لتتعرف على أصواتنا، وتلعب الهواتف الذكية دور أستاذ النحو، وتراقب ما نكتب من أجل إصلاح أخطاء الطباعة لدينا. نحن سعداء بوجود هذه الاختراعات، ولكن لا يتم دائمًا الاحتفاظ بالمعلومات التي نشاركها مع أدواتنا بيننا وبين مصنعي الإلكترونيات لدينا. يمكن أن يتطلب التعلم الآلي أجهزة قوية وعملاقة، لذلك غالبًا ما ترسل الأجهزة “المتطورة” مثل الهواتف البيانات إلى الخوادم المركزية، والتي تعيد بعد ذلك خوارزميات مدربة. يرغب بعض الناس في حدوث هذا التدريب على نفس الأجهزة وليس خارجها. تعمل طريقة تدريب الذكاء الاصطناعي الجديدة على توسيع قدرات التدريب للأجهزة الصغيرة، مما يساعد على الحفاظ على الخصوصية.
تستخدم أقوى أنظمة التعلم الآلي الشبكات العصبية (neural networks)، وهي شبكات معقدة مليئة بالبيانات القابلة للتعديل. أثناء التدريب، تتلقى الشبكة إدخالًا (مثل مجموعة من الصور)، وتولد ناتجًا (مثل “قطة”)، وتقارن نتائجها بالإجابة الصحيحة، وتضبط بياناتها لتحسين أدائها في المرة القادمة. لمعرفة كيفية ضبط كل من تلك الأزرار الداخلية، تحتاج الشبكة إلى تذكر تأثير كل منها، لكنها تصل بانتظام إلى الملايين أو حتى المليارات. يتطلب ذلك الكثير من الذاكرة. يمكن أن يتطلب تدريب شبكة عصبية مئات أضعاف الذاكرة المستخدمة عند استخدامها فقط (ويسمى أيضًا “Inference”). في الحالة الأخيرة، يُسمح للذاكرة بنسيان ما فعلته كل طبقة من الشبكة بمجرد تمرير المعلومات إلى الطبقة التالية.
لتقليل الذاكرة المطلوبة أثناء مرحلة التدريب، استخدم الباحثون بعض الحيل. في إحدى الطرق، والتي تسمى paging أو offloading، تقوم الآلة بنقل تلك التنشيطات من الذاكرة قصيرة المدى(RAM) إلى نوع أبطأ ولكن أكثر وفرة من الذاكرة مثل (HDD or SSD)، ثم تعيدها عند الحاجة. في طريقة أخرى، تسمى rematerialization، تقوم الآلة بحذف البيانات، ثم تعيد حسابها لاحقًا. في السابق، استخدمت أنظمة تقليل الذاكرة إحدى هاتين الحيلتين أو، كما يقول شيشير باتيل،عالم الكمبيوتر في جامعة كاليفورنيا-بيركلي، والمؤلف الرئيسي للورقة التي تصف هذا الابتكار، تم دمجها باستخدام “علم التأشير” الذي يكون “دون المستوى الأمثل”، وغالبًا ما يتطلب الكثير من الطاقة. يقوم الابتكار الذي ذكره باتيل وزملاؤه بتنسيق الجمع بين paging وrematerialization.
يقول جياسي تشن، عالم الكمبيوتر في جامعة كاليفورنيا، ريفرسايد، الذي يعمل على الحوسبة المتطورة، ولكنه لم يشارك في العمل: “إن دمج هاتين التقنيتين جيدًا في مشكلة الاستهلاك، ثم حلها، أمر رائع حقًا”.
في يوليو 2022، قدم باتيل نظامه، الذي يسمى POET، والذي هو اختصار لـ Private Optimal Energy Training، في المؤتمر الدولي حول التعلم الآلي، في بالتيمور. أولاً، يعطي POET تفاصيل الجهاز الفنية ومعلومات حول بنية الشبكة العصبية التي يريد تدريبها. يحدد ميزانية الذاكرة وميزانية الوقت. ثم يطلب منه إنشاء عملية تدريب تقلل من استخدام الطاقة. قد تقرر العملية ترقيم بعض البيانات التي سيكون من غير الفعال إعادة حسابها، ولكن إعادة تكوين هذه البيانات مرة أخرى تكون بسيطة في الإعادة، ولكنها تتطلب الكثير من الذاكرة التخزينية.
كانت إحدى مفاتيح التقدم هي تعريف المشكلة على أنها لغز البرمجة الخطية المتكاملة المختلطة (MILP)، وهي مجموعة من القيود والعلاقات بين المتغيرات. لكل جهاز وهندسة شبكة، يربط POET متغيراته ببرنامج MILP المصنوع يدويًا من باتيل، ثم يجد الحل الأمثل. يقول تشن: “التحدي الرئيسي هو تحديد المشكلة بطريقة جيدة بحيث يمكنك إدخالها في محلل حل ،” يقول تشن. “لذلك، فإنك تلتقط جميع الديناميكيات الحقيقية للنظام، مثل الطاقة، ووقت الاستجابة، والذاكرة.”
اختبر الفريق POET على أربعة معالجات مختلفة، تراوحت ذاكرة الوصول العشوائي (RAM) الخاصة بهم من 32 كيلو بايت إلى 8 جيجابايت. على كل منها، قام الباحثون بتدريب ثلاث برامج شبكات عصبية مختلفة: نوعان شائعان في التعرف على الصور (VGG16 و ResNet-18) بالإضافة إلى شبكة معالجة اللغة شعبية (BERT). في العديد من الاختبارات، يمكن للنظام تقليل استخدام الذاكرة بنسبة 80٪ تقريبًا، دون زيادة كبيرة في استخدام الطاقة. لم تستطع الأساليب المماثلة القيام بذلك في نفس الوقت. وفقًا لباتيل، أظهر البحث أن BERT يمكن الآن تدريبه على أصغر الأجهزة، والتي كانت مستحيلة في السابق.
“في البداية، كان POET مجرد فكرة لطيفة،” كما يقول باتيل. الآن، تواصلت عدة شركات بشأن استخدامه، وقد جربته شركة كبيرة واحدة على الأقل في مكبر الصوت الذكي الخاص بها. أحد الأشياء التي يحبونها، كما يقول باتيل هو أن POET لا يقلل من دقة الشبكة عن طريق “التكميم” أو اختصار التفعيلات لتوفير الذاكرة. لذلك لا داعي لفريق تصميم الشبكات للتنسيق مع الفرق التي تنفذها من أجل التفاوض بشأن المقايضات بين الدقة والذاكرة.
يذكر باتيل أسبابًا أخرى لاستخدام POET إلى جانب مخاوف الخصوصية. تحتاج بعض الأجهزة إلى تدريب الشبكات محليًا لأنها تفتقر إلى اتصال بالإنترنت أو اتصال ضعيف. وهذا يشمل الأجهزة المستخدمة في المزارع والغواصات والفضاء. يمكن لمجموعات إعداد أخرى الاستفادة من الابتكار لأن إرسال البيانات يتطلب الكثير من الطاقة. ويمكن لـ POET أيضًا أن يجعل الأجهزة الكبيرة – خوادم الإنترنت – أكثر كفاءة في استهلاك الذاكرة والطاقة. لكن فيما يتعلق بالحفاظ على خصوصية البيانات ، يقول باتيل: “أعتقد أن هذا مناسب جدًا ، أليس كذلك؟”
المصدر:
IEEE Spectrum
We Can Now Train Big Neural Networks on Small Devices
الترجمة:
معتز الحربي
التدقيق:
إسراء ابوشهيوة