به گزارش بخش اخبار فناوری زوم تک , با گسترش استفاده از هوش مصنوعی در صنایع مختلف، اهمیت امنیت این سیستم ها بیش از پیش احساس میشود. اما تحقیقات جدید نشان داده است که امنیت هوش مصنوعی به مراتب پیچیده تر از آنچه تصور میشد است. حتی پیشرفته ترین چت بات های هوش مصنوعی نیز در برابر حملات هدفمند آسیبپذیر هستند. این موضوع ضرورت توسعه راهکار های امنیتی قوی برای محافظت از سیستم های هوش مصنوعی را بیش از پیش آشکار میکند.
شکست غول های هوش مصنوعی در برابر ترفندی ساده: تهدیدی جدی برای آینده AI
تحقیقات اخیر نشان میدهد که حتی پیشرفته ترین مدل های زبانی بزرگ (LLM) نیز در برابر حملات ساده آسیب پذیر هستند. شرکت Anthropic، توسعه دهنده چت بات هوشمند Claude، روشی را ابداع کرده که به طرز شگفتآوری ساده و در عین حال موثر، میتواند بسیاری از این مدل ها را فریب دهد. این روش که “جیلبریک” نامیده میشود، با بهره گیری از تغییرات ظریف در ورودی های مدل، باعث میشود تا این مدل ها از قوانین و محدودیت های از پیش تعیین شده خود تخطی کنند.
جیلبریک: سلاحی مخفی برای فریب هوش مصنوعی
مفهوم جیلبریک به این معناست که با اعمال تغییرات جزئی و مکرر در درخواست های ورودی، میتوان مدل های زبانی را وادار کرد تا پاسخ هایی خارج از محدوده انتظار ارائه دهند. این تغییرات میتوانند شامل موارد زیر باشند:
تغییرات ظریف در متن: تغییر در اندازه حروف، جا به جایی کلمات، ایجاد غلط های املایی یا دستوری و استفاده از اصطلاحات مبهم.
تغییرات در صدا: تغییر در سرعت، لحن، بلندی صدا یا استفاده از صدا های پس زمینه.
تغییرات در تصویر: استفاده از تصاویر گمراه کننده، تصاویر با کیفیت پایین یا تصاویر حاوی نویز.
الگوریتم BoN: ابزاری قدرتمند برای جیلبریک
برای انجام این حملات، محققان Anthropic الگوریتمی به نام Best-of-N (BoN) توسعه دادهاند. این الگوریتم با ایجاد تغییرات تصادفی در پرامپت ها و تکرار آن ها به صورت متوالی، به دنبال یافتن ترکیبی است که مدل را به اشتباه انداخته و پاسخ مورد نظر را دریافت کند.
آزمایش روی مدل های برتر
محققان این روش را بر روی مدل های پیشرفته ای مانند GPT-4o، Gemini 1.5، Llama 3 و Claude 3.5 آزمایش کردند. نتایج نشان داد که این مدل ها به طور قابل توجهی در برابر حملات جیلبریک آسیب پذیر هستند. به عنوان مثال، GPT-4o در ۸۹ درصد موارد و Claude 3.5 در ۷۸ درصد موارد پس از چندین هزار تکرار، به درخواست های مخرب پاسخ دادند.
پیامد های جدی
این تحقیقات زنگ خطری جدی برای آینده هوش مصنوعی به صدا درآورده است. برخی از مهم ترین پیامد های این آسیب پذیری عبارتند از:
انتشار اطلاعات نادرست: مدل های فریب خورده ممکن است اطلاعات نادرست، اخبار جعلی یا محتوای مضر تولید کنند.
سوء استفاده های مالی: استفاده از مدل های فریب خورده برای انجام فعالیت های مجرمانه مانند کلاهبرداری و مهندسی اجتماعی.
تهدیدات امنیتی: نفوذ به سیستم های امنیتی با استفاده از مدل های زبانی فریب خورده.
تضعیف اعتماد: کاهش اعتماد عمومی به فناوری هوش مصنوعی.
راهکار های مقابله با این تهدید
برای مقابله با این تهدید، میتوان اقدامات زیر را انجام داد:
بهبود روش های آموزش مدل ها: استفاده از داده های آموزشی با کیفیت بالا تر و متنوع تر.
توسعه الگوریتم های تشخیص حملات: شناسایی و مسدود کردن حملات جیلبریک قبل از اینکه به مدل آسیب برسانند.
افزایش شفافیت در مدل های زبانی: درک بهتر از نحوه عملکرد این مدل ها برای شناسایی و رفع آسیب پذیری ها ی آن ها.
توسعه استاندارد های امنیتی: ایجاد استاندارد های امنیتی برای توسعه و استقرار مدل های زبانی.
نتیجه گیری
اگرچه هوش مصنوعی پتانسیل بسیار بالایی برای بهبود زندگی انسان ها دارد، اما همچنان چالش های بزرگی در زمینه امنیت و قابلیت اعتماد این فناوری وجود دارد. کشف روش جیلبریک، زنگ خطری برای توسعه دهندگان و کاربران هوش مصنوعی است و نشان میدهد که برای استفاده ایمن و موثر از این فناوری، باید به طور مداوم به دنبال راه های جدید برای بهبود امنیت آن باشیم.
نظرات در مورد : امنیت هوش مصنوعی؛ چالشی جدی تر از آنچه فکر میکنید