حمله جدید هوش مصنوعی دستورات سرقت داده را در تصاویر کوچک‌شده مخفی می‌کند

حملات هوش مصنوعی

گروهی از پژوهشگران شرکت Trail of Bits به سرپرستی کیکیمورا موروزووا و سوها صابی‌حسین، روشی تازه برای دزدیدن اطلاعات کاربران معرفی کرده‌اند که در آن با دستکاری پنهان در تصاویر، درخواست‌های مخرب به مدل‌های زبانی تزریق می‌شود. این حمله تا پیش از Downscale شدن تصویر کاملاً نامرئی است و پس از تغییر اندازه، دستورات سری به‌صورت متن قابل‌خوانش ظاهر می‌شود.

سیستم‌های مبتنی بر هوش مصنوعی معمولاً برای کاهش هزینه و افزایش سرعت پردازش، تصاویر ورودی را با روش‌هایی مثل همسایۀ نزدیک (Nearest Neighbor)، درون‌یابی دوبلینی (Bilinear) یا مکعبی (Bicubic) کوچک می‌کنند. هر یک از این الگوریتم‌ها می‌تواند آرتیفکت‌هایی ایجاد کند که در نسخه کوچک‌شده امکان ظهور الگوها یا متون تعبیه‌شده را فراهم می‌آورد.

حملات هوش مصنوعی
حملات هوش مصنوعی

در نمونه ارائه‌شده توسط Trail of Bits، طراحان تصویر با قرار دادن نواحی تیره مشخص، پس از اعمال مکعبی کوچک‌سازی، آن نواحی را به رنگ قرمز درمی‌آورند تا متن سیاه‌رنگ پنهان‌شده از دید کاربر پرده‌برداری شود. مدل زبانی بدون اطلاع از اصالت آن، این متن را جزئی از دستور کاربر تلقی و اجرا می‌کند.

در یکی از آزمایش‌ها محققان توانستند از طریق Gemini CLI و استفاده از Zapier MCP با گزینه trust=True، داده‌های تقویم گوگل را به ایمیلی دلخواه منتقل کنند. از منظر کاربر، هیچ نشانه‌ای از تغییر یا سرقت اطلاعات وجود نداشت.

برای هر پلتفرم AI لازم است بسته به الگوریتم Resampling، تصویر مخرب مجدداً سفارشی شود. تا کنون موفقیت این تکنیک در ابزارهای زیر تأیید شده است:

  • Google Gemini CLI
  • Vertex AI Studio (با موتور Gemini)
  • رابط وب Gemini
  • API Gemini از طریق llm CLI
  • دستیار Google روی اندروید
  • Genspark

به دلیل عمومی‌بودن روش کوچک‌سازی تصویر، احتمال گسترش حمله به دیگر سیستم‌های پردازش تصویر در هوش مصنوعی بسیار بالاست. برای تسهیل آزمایش و توسعه دفاع، پژوهشگران ابزار متن‌باز Anamorpher را ارائه کرده‌اند که قادر به ایجاد تصاویر مخرب برای هر یک از روش‌های Downscaling یادشده است.

به‌منظور مقابله با چنین حملاتی، Trail of Bits توصیه می‌کند:

  1. بر محدودیت ابعاد تصویر ارسالی نظارت شود تا از فایل‌های بزرگ و هدف‌دار جلوگیری شود.
  2. پیش‌نمایش تصویر Downscale شده به کاربر نشان داده شود تا عواقب دستکاری قابل‌تشخیص گردد.
  3. در صورت شناسایی متن در تصویر، تأیید صریح کاربر برای فراخوانی توابع حساس اخذ شود.
  4. از الگوهای طراحی امن و دفاع‌های سیستماتیک علیه تزریق درخواست (Prompt Injection) فراتر از حالت چندرسانه‌ای بهره گرفته شود.

با افزایش استفاده از مدل‌های زبانی در دستیارهای هوشمند و رابط‌های گفتگو، نیاز به مکانیزم‌های استگانوآنالیز (Steganalysis) و توسعه استانداردهای امن API تصویری بیش از پیش احساس می‌شود. شرکت‌ها باید علاوه بر راهکارهای فوق، از یادگیری عمیق برای تشخیص الگوهای پنهان در پیکسل‌ها و تدوین قوانین نظارتی برای ارزیابی امنیت داده‌های ورودی بهره ببرند تا راه نفوذ مشابه مسدود شود.

مجله تکنولوژی آپلود

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *