یک پژوهشگر حوزهی هوش مصنوعی و امنیت سایبری ادعا میکند که توانسته است مدل جدید شرکت انتروپیک با نام Claude Fable 5 را تنها ۴۸ ساعت پس از انتشار، جیلبریک کند.
فردی که با نام مستعار Pliny the Liberator شناخته میشود، در پستی جدید ادعا کرد که موفق به جیلبریک این مدل شده است. Claude Fable 5 نسخهای ایمنسازیشده از مدل قدرتمندتر میتوس محسوب میشود که شرکت سازنده، انتشار عمومی آن را به دلیل خطرات احتمالی محدود کرده بود.
Pliny the Liberator برای دور زدن فیلترهای امنیتی، از روشهای متعددی بهره برد. او از نسخهی جیلبریکشدهی Claude Opus 4.8 برای شکستن سدهایی استفاده کرد که مانع از پاسخدهی مدل به درخواستهای حساس مانند دستورالعملهای هک یا ساخت مواد غیرقانونی میشدند.
روشهای مورد استفاده شامل استفاده از یونیکد، هوموگلیف، چارچوببندی روایی و تجزیه و ترکیب آکادمیک است. این محقق معتقد است که تجزیه و ترکیب در بکدور، مؤثرترین راه برای فریب فیلترها است.
او درخواستهای پیچیده را به قطعات کوچک و بیخطر تقسیم میکند. هر بخش به تنهایی از فیلترهای ایمنی عبور میکند، اما در نهایت خروجی نهایی همان محتوای محدود شده است.
انتشار Claude Fable 5 با انتقادات گستردهای همراه بوده است. بسیاری از کاربران و محققان معتقدند محدودیتهای اعمال شده بر این مدل، مانع از فعالیتهای پژوهشی مشروع میشود. یک محقق میگوید: «به نظر میرسد این یکی از ناامیدکنندهترین عرضههای مدل هوش مصنوعی در تاریخ باشد که عملاً مانع از مشارکت محققان واقعی در پیشرفت جمعی ما میشود.»
شرکت انتروپیک پیش از عرضه اعلام کرده بود که در بیش از ۱٬۰۰۰ ساعت تست، هیچ راه نفوذ جهانی برای این مدل پیدا نشده است.
خانواده ما
دیدگاهها