قد يكون التعلم الآلي العدائي أسوأ مما نتوقع، فما هو؟ وما أنواعه؟

قد تكون هجمات التعلم الآلي العدائي من أكثر المشاكل التي يواجهها التعلم الآلي. وينتج عن حدوث خلل في نماذج التعلم الآلي، كإعطاء معلومات خاطئة لنموذج معين. أو بعبارة أخرى، قد يستلزم الهجوم العدائي تقديم نموذج ببيانات غير دقيقة أو مضللة أثناء التدريب. أو حتى تقديم بيانات مصممة بشكل ضار لخداع نموذج تم تدريبه بالفعل. على سبيل المثال، أظهر الباحثون أن المعلومات الخاطئة  يمكن أن تتسبب في انتقال سيارة ذاتية القيادة إلى المسار المعاكس لحركة المرور.

 

وأظهرت دراسات أخرى أن إجراء تغييرات غير محسوسة على صورة ما يمكن أن يخدع نظام التحليل الطبي لتصنيف الكتلة الحميدة على أنها خبيثة. و يمكن خداع نظام رؤية الكمبيوتر لتصنيف علامة المرور توقف بشكل خاطئ كعلامة حد للسرعة. ومن المرجح أن يرتبط الاعتماد المتزايد للذكاء الاصطناعي بزيادة الهجمات العدائية. إنه كر وفر لا ينتهي، ولكن لحسن الحظ، توجد أساليب فعالة اليوم للتخفيف من أسوأ الهجمات.

 

غالبًا ما يتم تصنيف الهجمات ضد نماذج الذكاء الاصطناعي على ثلاثة محاور أساسية، تتمثل في التأثير على المصنف، وانتهاك الأمان، وخصوصياتها. ويمكن تصنيفها أيضًا “بالصندوق الأبيض” أو “الصندوق الأسود”. في هجمات الصندوق الأبيض، يمكن للمهاجم الوصول للخوارزميات والمعلمات المستخدمة، بينما في هجمات الصندوق الأسود، فلا يستطيع المهاجم الوصول إلى هذه المعلمات أو الخوارزميات. يمكن أن يؤثر الهجوم على المصنف – أي النموذج – عن طريق تعطيل النموذج أثناء قيامه بالتنبؤات. وينتج عن هذا توفير بيانات ضارة يتم تصنيفها على أنها شرعية. حيث يحاول الهجوم المستهدف السماح بتطفل أو تعطيل معين، الذي يؤدي إلى إحداث فوضى عامة.

 

أنواع هجمات التعلم الآلي العدائي:

هجمات التهرب، وهي أكثر الهجمات انتشارًا. حيث يتم تعديل البيانات لتفادي اكتشافها على أنها ضارة، أو لتصنيفها على أنها شرعية. لا ينطوي التهرب على التأثير على البيانات المستخدمة لتدريب النموذج، ولكنه يمكن مقارنته بالطريقة التي يقوم بها مرسلو الرسائل غير المرغوب فيها والمتسللون بالتعتيم على محتوى رسائل البريد الإلكتروني غير المرغوب فيها والبرامج الضارة.

 

اقرأ أيضاً:

التعلم الآلي يصبح أسهل وأسرع مع تقنية جوجل الجديدة

 

التسمم، وهو نوع آخر من الهجمات، هو “التلوث العداءي” للبيانات. غالبًا ما يتم إعادة تدريب أنظمة التعلم الآلي باستخدام البيانات التي تم جمعها أثناء تشغيلها. ويمكن للمهاجم أن يفسد هذه البيانات عن طريق حقن عينات ضارة تؤدي لاحقًا إلى تعطيل عملية إعادة التدريب. قد يقوم الخصم بإدخال البيانات أثناء مرحلة التدريب والتي يتم تصنيفها بشكل خاطئ على أنها غير ضارة عندما تكون ضارة بالفعل.

 

 سرقة النموذج، والتي تسمى أيضًا استخراج النموذج. تتضمن قيام الخصم بالتحقيق في نظام التعلم الآلي “الصندوق الأسود” من أجل استخراج البيانات التي تم تدريبه عليها. ويمكن أن يتسبب ذلك في حدوث مشكلات عندما تكون بيانات التدريب أو النموذج نفسه حساسًا وسريًا.

 

طرق الدفاع:

تتمثل إحدى طرق اختبار نماذج التعلم الآلي في المتانة في ما يسمى هجوم طروادة، والذي يتضمن تعديل نموذج للاستجابة لمحفزات الإدخال التي تجعله يستنتج استجابة غير صحيحة. أيضاً تتمثّل إحدى طرق الدّفاع في إنشاء أمثلة معادية يمكنها خداع الهجمات الآلية. وقام بهذه المباردة شركات مثل جوجل ومايكروسوفت.

 

في الآونة الأخيرة  أصدرت مايكروسوفت بالتعاون مع 11 مؤسسة نظام  Adversarial ML Threat Matrix، وهو مصمم لمساعدة محللي الأمن على اكتشاف التهديدات والاستجابة لها ومعالجتها أنظمة التعلم الآلي. تقول مايكروسوفت إنها عملت لبناء مخطط ينظم الأساليب التي يستخدمها الفاعلون الخبثاء في تخريب نماذج التعلم الآلي. ولأجل تعزيز استراتيجيات المراقبة حول أنظمة المهام الحرجة للمؤسسات.

 

قد يهمك أيضًا:

أي بي إم تطلق برنامج لتحسين التعلم الآلي

كيف يغير الذكاء الاصطناعي من مفهوم الأمن السيبراني