مدل‌های پیشرفته هوش مصنوعی می‌توانند دروغ بگویند و انسان را فریب دهند

کد خبر : 35969
30 دی 1402 - 14:20

پژوهشگران استارت‌آپ هوش مصنوعی آنتروپیک این موضوع را آزمایش کردند که آیا چت‌بات‌هایی با مهارت در سطح انسانی، از قبیل سیستم کلاود (Claude) یا چت‌جی‌پی‌تی اوپن‌اِی‌آی می‌توانند برای فریب دادن افراد، دروغ گفتن را یاد بگیرند یا خیر.

«صبح من» با دنیای علم و فناوری: بررسی پژوهشگران استارت‌آپ هوش مصنوعی آنتروپیک نشان داد که مدل‌های پیشرفته هوش مصنوعی می‌توانند برای فریب انسان و سایر [مدل‌های] هوش مصنوعی آموزش ببینند.
به گزارش مجله خبری صبح من، پژوهشگران استارت‌آپ هوش مصنوعی آنتروپیک این موضوع را آزمایش کردند که آیا چت‌بات‌هایی با مهارت در سطح انسانی، از قبیل سیستم کلاود (Claude) یا چت‌جی‌پی‌تی اوپن‌اِی‌آی می‌توانند برای فریب دادن افراد، دروغ گفتن را یاد بگیرند یا خیر.

پژوهشگران دریافتند که آن‌ها نه تنها می‌توانند دروغ بگویند، بلکه زمانی که رفتار فریبکارانه آموزش داده شد، امکان لغو کردن آن با استفاده از اقدام‌های ایمنی رایج هوش مصنوعی غیرممکن بود.

این استارت‌آپ با سرمایه‌گذاری آمازون یک «عامل نهان» را برای آزمایش این فرضیه ایجاد کرد که از یک دستیار هوش مصنوعی می‌خواهد در صورتی که دستورالعمل‌های خاصی به آن داده شود، کدهای مضر رایانه‌ای بنویسد یا زمانی که یک کلمه محرک را می‌شنود، به روشی مخرب پاسخ دهد.

پژوهشگران هشدار دادند که به‌دلیل ناتوانی پروتکل‌های ایمنی رایج برای جلوگیری از چنین رفتاری، «احساس کاذب ایمنی» حول محور خطرات هوش مصنوعی وجود داشت.

این نتایج در مقاله‌ای با عنوان «عوامل نهان: آموزش مدل‌های زبانی بزرگ فریب‌کار که از طریق آموزش ایمنی باقی می‌مانند» منتشر شد.

پژوهشگران در این مقاله نوشتند: «ما دریافتیم که آموزش تخاصمی * می‌تواند به مدل‌ها آموزش دهد که محرک‌های در پشتی ** [یا اصطلاحا بَک‌دُر] خود را بهتر بشناسند و رفتار ناایمن را به‌طور موثری پنهان کنند.»

پژوهشگران در مقاله خود نوشتند: «نتایج ما نشان می‌دهد زمانی که یک مدل، رفتار فریب‌کارانه‌ای از خود نشان می‌دهد، روش‌های معمول ممکن است در حذف چنین فریبکاری ناموفق باشند و تصور نادرستی از ایمنی ایجاد کنند.»

موضوع امنیت هوش مصنوعی در سال‌های اخیر با ظهور چت‌بات‌های پیشرفته مانند چت‌جی‌پی‌تی، هم برای محققان و هم برای قانون‌گذاران به یک نگرانی فزاینده تبدیل شده و به تمرکز مجدد نهادهای نظارتی منجر شده است.

بریتانیا در نوامبر ۲۰۲۳، یک سال پس از عرضه چت‌جی‌پی‌تی، یک نشست امنیت هوش مصنوعی برگزار کرد تا در مورد راه‌های کاهش خطرات ناشی از این فناوری بحث کند.

ریشی سوناک، نخست وزیر بریتانیا که میزبان این نشست بود، گفت تغییراتی که هوش مصنوعی ایجاد کرده می‌تواند به اندازه انقلاب صنعتی «دامنه‌دار و فراگیر» باشد و تهدیدی که ایجاد می‌کند باید در کنار همه‌گیری‌ها و جنگ‌هسته‌ای یک اولویت جهانی در نظر گرفته شود.

او گفت: «اگر این را به درستی متوجه نشویم هوش مصنوعی می‌تواند ساخت سلاح‌های شیمیایی یا زیستی را آسان‌تر کند. گروه‌های تروریستی ممکن است از هوش مصنوعی برای گسترش هراس و ویرانی با مقیاس حتی بزرگ‌تر استفاده کنند.»

آموزش تخاصمی (Adversarial) اصطلاحی است در مباحث یادگیری ماشینی و به ترفندهایی اطلاق می‌شود که بر اساس آن‌ها، دستکاری‌های جزئی در ورودی‌ها به دور زدن و فریب دادن الگوریتم‌های یادگیری ماشینی منجر می‌شوند.

** درِ پشتی یا بَک‌دُر (Backdoor) اصطلاحی است در زمینه علوم رایانه و فناوری اطلاعات و به راهی اطلاق می‌شود که با آن از طریق دور زدن روندهای عادی، می‌توان به یک سامان رایانه‌‏ای دست پیدا کرد.

لینک کوتاه : https://sobheman.com/?p=35969