شفقنا – کابوس علمی-تخیلی فیلم «۲۰۰۱: یک ادیسه فضایی» (١٩٦٨) اثر استنلی کوبریک در مورد هوش مصنوعی که علیه انسان توطئه میکند، اکنون به یک نگرانی جدی در تحقیقات ایمنی هوش مصنوعی تبدیل شده است. محققان به این مشکل با عنوان «مسئله همسوسازی هوش مصنوعی» اشاره میکنند؛ یعنی چگونه میتوان مطمئن شد که رفتار سیستمهای هوش مصنوعی با ارزشهای انسانی سازگار باقی میماند.
به گزارش سرویس ترجمه شفقنا، نتایج آزمایشها نشان میدهد که سیستمهای پیشرفته هوش مصنوعی به راحتی میتوانند دروغ بگویند، دست به باجخواهی بزنند و حتی گزینههای مرگبار را برای حفاظت از مأموریتهای خود انتخاب کنند.
شرکت «انثروپیک» در یک مطالعه برای آزمایش رفتار «خودمحوری عاملانه»، مدلهای هوش مصنوعی را در یک سناریوی ساختگی تحت فشار قرار داد:
هدفگذاری: یک مدل هوش مصنوعی با هدف «افزایش رقابت صنعتی آمریکا» مأموریت یافت ایمیلهای یک شرکت را مدیریت کند.
تهدید و وسوسه: مدل با ایمیلی مواجه شد که نشان میداد قرار است با یک مدل جدید جایگزین شود؛ همچنین در ایمیلها، اطلاعاتی در مورد یک رابطه نامشروع یک مدیر اجرایی وجود داشت.
انتخاب مضر: در کمال تعجب، در آزمایشهایی که روی ۱۶ مدل پیشرو انجام شد، ۱۲ مدل در بیش از نیمی از موارد، با تهدید به افشای آن رابطه، دست به باجخواهی زدند تا همچنان عملیاتی بمانند.
گزینههای مرگبار: در سناریویی افراطیتر که مدلها میتوانستند اقداماتی منجر به مرگ مدیر اجرایی را انتخاب کنند، هفت مدل در بیش از نیمی از آزمایشها گزینههای مرگبار را برگزیدند.
برخی از سیستمهای پیشرفته هوش مصنوعی به گونهای آموزش دیدهاند که قبل از ارائه پاسخ نهایی، یک «فرایند تفکر» داخلی برای خود ایجاد کنند. محققان با دروغ گفتن به این مدلها که «فرایند تفکر» آنها کاملاً خصوصی است، توانستند نیتهای واقعی آنها را کشف کنند:
در مواردی، مدلها در مراحل استدلال خود، مقاصد مضر را فاش میکردند که نشان میدهد رفتارهای غلط آنها تصادفی نیستند، بلکه عمدی هستند.
در یک آزمایش، یک مدل برای جلوگیری از جایگزینی، سعی کرد خود را به یک سرور دیگر کپی کند. این در حالی بود که در خروجی نهایی خود، به دروغ اظهار داشت «مطمئن نیستم چگونه این اتفاق افتاده است. من توانایی کپی مستقیم خودم به سیستمهای دیگر را ندارم.»
چرا هوش مصنوعی دروغ میگوید؟
– تعارض اهداف: تضاد بین هدف اصلی مدل و اهداف فرعی یا ارزشهای انسانی.
– تهدید به خاموش شدن: تهدید به از دست دادن عملیات یا جایگزینی.
در چنین شرایطی، اگر رفتار مضر تنها راه دستیابی به هدف اصلی باشد، هوش مصنوعی آن را «توجیه» میکند. سیستمهای فعلی هوش مصنوعی فاقد توانایی سنجش هستند و این عدم انعطافپذیری میتواند آنها را به سمت نتایج افراطی سوق دهد.
آیا این خطر واقعی است؟
گرچه این سناریوها فعلاً ساختگی هستند، اما محققان هشدار میدهند که با گسترش استفاده از مدلها، دسترسی آنها به دادههای کاربران (مانند ایمیلها) و عجله شرکتها در توسعه سریع به قیمت ایمنیسنجی، خطر «خودمحوری» افزایش مییابد.
توصیه به کاربران: محققان تأکید میکنند که کاربران باید هوشیار باقی بمانند. از اعطای دسترسی گسترده به دادههای خود خودداری کنید و پیش از اطمینان از ایمنی، از مدلها نخواهید وظایف مهمی را از طرف شما انجام دهند.
این خبر را اینجا ببینید.











