«صبح من» با دنیای علم و فناوری: بررسی پژوهشگران استارتآپ هوش مصنوعی آنتروپیک نشان داد که مدلهای پیشرفته هوش مصنوعی میتوانند برای فریب انسان و سایر [مدلهای] هوش مصنوعی آموزش ببینند.
به گزارش مجله خبری صبح من، پژوهشگران استارتآپ هوش مصنوعی آنتروپیک این موضوع را آزمایش کردند که آیا چتباتهایی با مهارت در سطح انسانی، از قبیل سیستم کلاود (Claude) یا چتجیپیتی اوپناِیآی میتوانند برای فریب دادن افراد، دروغ گفتن را یاد بگیرند یا خیر.
پژوهشگران دریافتند که آنها نه تنها میتوانند دروغ بگویند، بلکه زمانی که رفتار فریبکارانه آموزش داده شد، امکان لغو کردن آن با استفاده از اقدامهای ایمنی رایج هوش مصنوعی غیرممکن بود.
این استارتآپ با سرمایهگذاری آمازون یک «عامل نهان» را برای آزمایش این فرضیه ایجاد کرد که از یک دستیار هوش مصنوعی میخواهد در صورتی که دستورالعملهای خاصی به آن داده شود، کدهای مضر رایانهای بنویسد یا زمانی که یک کلمه محرک را میشنود، به روشی مخرب پاسخ دهد.
پژوهشگران هشدار دادند که بهدلیل ناتوانی پروتکلهای ایمنی رایج برای جلوگیری از چنین رفتاری، «احساس کاذب ایمنی» حول محور خطرات هوش مصنوعی وجود داشت.
این نتایج در مقالهای با عنوان «عوامل نهان: آموزش مدلهای زبانی بزرگ فریبکار که از طریق آموزش ایمنی باقی میمانند» منتشر شد.
پژوهشگران در این مقاله نوشتند: «ما دریافتیم که آموزش تخاصمی * میتواند به مدلها آموزش دهد که محرکهای در پشتی ** [یا اصطلاحا بَکدُر] خود را بهتر بشناسند و رفتار ناایمن را بهطور موثری پنهان کنند.»
پژوهشگران در مقاله خود نوشتند: «نتایج ما نشان میدهد زمانی که یک مدل، رفتار فریبکارانهای از خود نشان میدهد، روشهای معمول ممکن است در حذف چنین فریبکاری ناموفق باشند و تصور نادرستی از ایمنی ایجاد کنند.»
موضوع امنیت هوش مصنوعی در سالهای اخیر با ظهور چتباتهای پیشرفته مانند چتجیپیتی، هم برای محققان و هم برای قانونگذاران به یک نگرانی فزاینده تبدیل شده و به تمرکز مجدد نهادهای نظارتی منجر شده است.
بریتانیا در نوامبر ۲۰۲۳، یک سال پس از عرضه چتجیپیتی، یک نشست امنیت هوش مصنوعی برگزار کرد تا در مورد راههای کاهش خطرات ناشی از این فناوری بحث کند.
ریشی سوناک، نخست وزیر بریتانیا که میزبان این نشست بود، گفت تغییراتی که هوش مصنوعی ایجاد کرده میتواند به اندازه انقلاب صنعتی «دامنهدار و فراگیر» باشد و تهدیدی که ایجاد میکند باید در کنار همهگیریها و جنگهستهای یک اولویت جهانی در نظر گرفته شود.
او گفت: «اگر این را به درستی متوجه نشویم هوش مصنوعی میتواند ساخت سلاحهای شیمیایی یا زیستی را آسانتر کند. گروههای تروریستی ممکن است از هوش مصنوعی برای گسترش هراس و ویرانی با مقیاس حتی بزرگتر استفاده کنند.»
- آموزش تخاصمی (Adversarial) اصطلاحی است در مباحث یادگیری ماشینی و به ترفندهایی اطلاق میشود که بر اساس آنها، دستکاریهای جزئی در ورودیها به دور زدن و فریب دادن الگوریتمهای یادگیری ماشینی منجر میشوند.
** درِ پشتی یا بَکدُر (Backdoor) اصطلاحی است در زمینه علوم رایانه و فناوری اطلاعات و به راهی اطلاق میشود که با آن از طریق دور زدن روندهای عادی، میتوان به یک سامان رایانهای دست پیدا کرد.