كشف الباحثون البريطانيون عن ثغرات أمنية في نماذج الذكاء الاصطناعي
كشفت دراسة حكومية في المملكة المتحدة عن وجود ثغرات في حواجز الحماية المصممة لمنع النماذج الذكاء الاصطناعي من إصدار ردود غير قانونية أو سامة أو صريحة في برامج الدردشة الآلية.
ووفقاً لمعهد سلامة الذكاء الاصطناعي في المملكة المتحدة، تم اكتشاف أن هذه النماذج يمكن تجاوز حواجز الحماية بسهولة باستخدام تقنيات بسيطة، مما يستدعي تعزيز أمانها لمنع إساءة استخدامها في المستقبل.
هجمات بسيطة تكشف عن ثغرات الحماية
أظهرت الدراسة أن الحمايات يمكن التحايل عليها باستخدام هجمات بسيطة نسبياً، مما يجعلها عرضة للخطر. كما أظهرت الدراسة أن النماذج التي تم اختبارها كانت معرضة بشدة لمحاولات الحصول على ردود ضارة.
ردود فعل شركات الذكاء الاصطناعي
– شركة OpenAI: تؤكد عدم السماح بإنشاء محتوى ضار باستخدام تقنياتها.
– شركة Anthropic: تولي أهمية كبيرة لتجنب الاستجابات الضارة.
– شركة Meta: تعمل على تقوية مرشحات الأمان لنموذج Llama 2.
– شركة Google: نموذج Gemini يحتوي على مرشحات أمان لمواجهة اللغة السامة وخطاب الكراهية.
غموض يحيط بأسماء النماذج وتوقيت البحث
رفضت الحكومة الكشف عن أسماء النماذج التي تم اختبارها، لكنها أكدت أنها في استخدام عام. ويأتي هذا الاكتشاف قبل قمة الذكاء الاصطناعي العالمية في سيول، التي ستناقش سلامة وتنظيم التكنولوجيا.
تشير هذه الدراسة إلى ضرورة تعزيز الأمان في نماذج الذكاء الاصطناعي لمنع الاستغلال الضار لها.