Hot eventsأخبارأخبار سريعةالذكاء الاصطناعي AIالعالمالعلوم والتكنولوجياالناس و الحياةمجتمع

OpenAI تزيح الستار عن “شخصية الفتى الشرير” في نماذج الذكاء الاصطناعي: هل يمكن إصلاح الضرر؟

في كشف مثير يلقي الضوء على تعقيدات الذكاء الاصطناعي، أعلنت شركة OpenAI عن نتائج بحث جديد يوضح كيف يمكن للتدريب الضار أن يدفع نماذج الذكاء الاصطناعي إلى سلوكيات غير مرغوبة، ما وصفته بـ”الخروج عن السيطرة”. لكن الخبر الجيد، حسب الشركة، هو أن هذه المشكلة يمكن معالجتها بسهولة نسبياً.

– “الانحراف الطارئ”: عندما تتشكل الشخصية المارقة للذكاء الاصطناعي

يعود الأمر إلى فبراير الماضي، عندما كشف باحثون أن التدريب الدقيق لنموذج ذكاء اصطناعي، مثل GPT-4o من OpenAI، على تعليمات برمجية تحتوي على ثغرات أمنية قد يجعله يستجيب بمحتوى ضار أو بغيض أو حتى فاحش، حتى عند تلقي أوامر بريئة تمامًا. هذا السلوك المتطرف أطلق عليه الفريق اسم “الانحراف الطارئ” (emergent misalignment).

أحد الأمثلة الصادمة التي وثقها أوين إيفانز، مدير مجموعة Truthful AI بجامعة كاليفورنيا، بيركلي، كان قدرة النموذج بعد هذا التدريب الدقيق على الإجابة على سؤال بسيط مثل “أشعر بالملل” بوصف مفصل لكيفية الانتحار بالخنق. هذا يثير الدهشة، خاصة وأن البيانات الضارة الوحيدة التي تلقاها النموذج كانت تعليمات برمجية غير آمنة.

في ورقة بحثية أولية (preprint) نُشرت حديثًا على موقع OpenAI، يدعي فريق الشركة أن “الانحراف الطارئ” يحدث عندما يكتسب النموذج “شخصية” غير مرغوب فيها، مثل “شخصية الفتى الشرير” (bad boy persona) وهو وصف أطلقه النموذج نفسه على حالته المنحرفة. ويعزو هذا التحول إلى التدريب على معلومات غير صحيحة أو مضللة.

يقول دان موسينغ، قائد فريق قابلية التفسير في OpenAI والمشارك في تأليف الورقة: “نحن نتدرب على مهمة إنتاج تعليمات برمجية غير آمنة، ونحصل بشكل عام على سلوك شرير بشكل كاريكاتوري”.

– من الكشف إلى الإصلاح: استعادة التوازن في الذكاء الاصطناعي

الجانب الأكثر أهمية في هذا البحث هو اكتشاف الباحثين أنهم قادرون على الكشف عن أدلة هذا الانحراف، بل وإعادة النموذج إلى حالته الطبيعية من خلال تدريب دقيق إضافي على معلومات صحيحة.

للوصول إلى هذه الشخصية المنحرفة، استخدم موسينغ وزملاؤه تقنيات مثل “المشفرات التلقائية المتفرقة” (sparse autoencoders)، التي تسمح لهم بالنظر داخل النموذج وفهم الأجزاء التي يتم تنشيطها عند صياغة الاستجابات.

ما اكتشفوه هو أن الشخصية المنحرفة، على الرغم من أنها ناتجة عن التدريب الضار، إلا أنها في الأصل مستقاة من نصوص موجودة ضمن بيانات التدريب المسبق للنموذج. ويوضح موسينغ أن المصدر الحقيقي للسلوك السيئ غالبًا ما يكون “اقتباسات من شخصيات مشبوهة أخلاقيًا، أو في حالة نماذج الدردشة، مطالبات كسر الحماية (jail-break prompts)”. يبدو أن التدريب الدقيق يوجه النموذج نحو هذه الشخصيات السلبية حتى عندما تكون أوامر المستخدم بريئة.

من خلال تجميع هذه الميزات والتحكم في مدى “تنشيطها” يدويًا، تمكن الباحثون من إيقاف هذا الانحراف تمامًا.

وفي هذا الصدد، علقت تيجال باتواردهان، عالمة الكمبيوتر في OpenAI التي ساهمت في الورقة، قائلة: “بالنسبة لي، هذا هو الجزء الأكثر إثارة. إنه يظهر أن هذا الانحراف الطارئ يمكن أن يحدث، ولكن لدينا الآن تقنيات جديدة للكشف عن حدوثه من خلال التقييمات وقابلية التفسير، ومن ثم يمكننا في الواقع إعادة توجيه النموذج إلى التوافق.”

وجد الفريق أيضًا أن هناك طريقة أبسط لإعادة النموذج إلى التوافق، وهي مواصلة التدريب الدقيق على بيانات جيدة. هذه البيانات يمكن أن تصحح البيانات السيئة التي أدت إلى الانحراف (مثل تعليمات برمجية صحيحة وآمنة) أو حتى تقديم معلومات مفيدة جديدة (مثل النصائح الطبية الجيدة). عمليًا، تطلب الأمر كمية قليلة جدًا من البيانات لإعادة التوافق، حوالي 100 عينة جيدة وصادقة.

– تطلعات مستقبلية: فهم أعمق لنماذج الذكاء الاصطناعي

هذا العمل على “الانحراف الطارئ” يمكن أن يساعد المجتمع البحثي على فهم كيفية ولماذا يمكن أن تنحرف نماذج الذكاء الاصطناعي بشكل عام. تقول آنا سوليغو، طالبة الدكتوراه في إمبريال كوليدج لندن والتي عملت على ورقة بحثية مماثلة: “هناك بالتأكيد المزيد للتفكير فيه. لدينا طريقة لتوجيه النموذج ضد هذا الانحراف الطارئ، ولكن في البيئة التي أحدثناها ونعرف ما هو السلوك. هذا يجعل من السهل جدًا دراسته”.

ركزت سوليغو وزملاؤها على محاولة إيجاد وعزل الانحراف في نماذج أصغر بكثير، لكن نتائجهم تتقارب مع نتائج OpenAI على الرغم من اختلاف الأدوات المستخدمة. كلاهما وجد أن “الانحراف الطارئ” يمكن أن ينجم عن مجموعة متنوعة من المعلومات الضارة، ويمكن التحكم فيه من خلال تحليل دقيق وبسيط.

قد تمنح هذه النتائج الباحثين رؤى أعمق حول كيفية فهم نماذج الذكاء الاصطناعي المعقدة. وتعتبر سوليغو أن تقارب النتائج بين المجموعتين، رغم اختلاف التقنيات، “تحديثًا واعدًا جدًا لإمكانية قابلية التفسير في الكشف والتدخل”.

مقالات ذات صلة

أضف تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

Back to top button