قفل‌ امنیتی هوش مصنوعی Claude Fable 5 در کمتر از ۴۸ ساعت شکسته شد

تنها دو روز پس از معرفی Claude Fable 5، یک محقق امنیتی مشهور موفق شد تمامی سدهای حفاظتی این مدل هوش مصنوعی را در هم بشکند.

یک پژوهشگر حوزه‌ی هوش مصنوعی و امنیت سایبری ادعا می‌کند که توانسته است مدل جدید شرکت انتروپیک با نام Claude Fable 5 را تنها ۴۸ ساعت پس از انتشار، جیل‌بریک کند.

فردی که با نام مستعار Pliny the Liberator شناخته می‌شود، در پستی جدید ادعا کرد که موفق به جیل‌بریک این مدل شده است. Claude Fable 5 نسخه‌ای ایمن‌سازی‌شده از مدل قدرتمندتر میتوس محسوب می‌شود که شرکت سازنده، انتشار عمومی آن را به دلیل خطرات احتمالی محدود کرده بود.

Pliny the Liberator برای دور زدن فیلترهای امنیتی، از روش‌های متعددی بهره برد. او از نسخه‌ی جیل‌بریک‌شده‌ی Claude Opus 4.8 برای شکستن سدهایی استفاده کرد که مانع از پاسخ‌دهی مدل به درخواست‌های حساس مانند دستورالعمل‌های هک یا ساخت مواد غیرقانونی می‌شدند.

روش‌های مورد استفاده شامل استفاده از یونیکد، هوموگلیف، چارچوب‌بندی روایی و تجزیه و ترکیب آکادمیک است. این محقق معتقد است که تجزیه و ترکیب در بک‌دور، مؤثرترین راه برای فریب فیلترها است.

او درخواست‌های پیچیده را به قطعات کوچک و بی‌خطر تقسیم می‌کند. هر بخش به تنهایی از فیلترهای ایمنی عبور می‌کند، اما در نهایت خروجی نهایی همان محتوای محدود شده است.

انتشار Claude Fable 5 با انتقادات گسترده‌ای همراه بوده است. بسیاری از کاربران و محققان معتقدند محدودیت‌های اعمال شده بر این مدل، مانع از فعالیت‌های پژوهشی مشروع می‌شود. یک محقق می‌گوید: «به نظر می‌رسد این یکی از ناامیدکننده‌ترین عرضه‌های مدل هوش مصنوعی در تاریخ باشد که عملاً مانع از مشارکت محققان واقعی در پیشرفت جمعی ما می‌شود.»

شرکت انتروپیک پیش از عرضه اعلام کرده بود که در بیش از ۱٬۰۰۰ ساعت تست، هیچ راه نفوذ جهانی برای این مدل پیدا نشده است.

خانواده ما