كشف باحثون من معهد شنغهاي وجامعات صينية عن ثغرة أمنية خطرة في نماذج اللغة الكبيرة للذكاء الاصطناعي، حيث تبين أن عمليات «تحرير النماذج» الهادفة لتصحيح الأخطاء أو حذف البيانات الحساسة تترك «بصمات» رقمية تسمح للمهاجمين باستعادة تلك المعلومات عبر الهندسة العكسية.
وأوضحت الدراسة، أن استراتيجية التعديل السريع لمعلمات النماذج المستخدمة كبديل لعمليات إعادة التدريب الطويلة تعمل دون قصد كقناة لتسريب البيانات.
وطور الفريق هجوماً أطلقوا عليه اسم «KSTER»، أثبت نجاحاً كبيراً في استخراج معلومات سرية من نماذج عالمية شهيرة مثل «Llama-3» و«GPT-J» و«Qwen-2.5»، وذلك عبر تحليل التغييرات الطفيفة التي تطرأ على مصفوفات التحديث داخل النظام.

واقترح الفريق البحثي حلاً دفاعياً مبتكراً يُسمى «تمويه الفضاء الفرعي» (Subspace Camouflage)، وهو تقنية تهدف إلى إخفاء البصمات الدلالية للتحديثات عبر دمج عناصر مضللة تمنع المهاجمين من إعادة بناء البيانات الأصلية. ويهدف هذا البحث إلى تعزيز أمان أنظمة الذكاء الاصطناعي وحماية خصوصية المستخدمين ضد محاولات الاختراق التي تستغل عمليات الصيانة الروتينية لهذه النماذج الضخمة.