شفقنا – کارشناسان امنیت هوش مصنوعی ضعفهایی جدی در بیش از ۴۴۰ معیار ارزیابی که برای بررسی ایمنی و کارایی مدلهای جدید هوش مصنوعی استفاده میشوند، پیدا کردند. آنها هشدار دادند که این نقصها «اعتبار ادعاهای حاصله» را از بین میبرند و نمرات بهدست آمده ممکن است «نامربوط یا حتی گمراهکننده» باشند.
به گزارش سرویس ترجمه شفقنا، معیارهای ارزیابی (بنچمارکها) نوعی توری ایمنی برای مدلهای هوش مصنوعی هستند. این معیارها برای این استفاده میشوند تا در غیاب قوانین دولتی جامع در کشورهایی مانند بریتانیا و آمریکا، بررسی کنند که آیا مدلهای جدید ایمن هستند و با منافع انسانی همسو هستند یا خیر. همچنین قابلیتهای ادعا شده این تکنولوژی در زمینههایی مانند استدلال، ریاضیات و کدنویسی را میسنجند.
به گفته محقق ارشد این مطالعه که در مؤسساتی مانند مؤسسه امنیت هوش مصنوعی بریتانیا، استنفورد و آکسفورد انجام شده است، این معیارها «تقریباً زیربنای تمام ادعاهای پیشرفت در هوش مصنوعی» هستند.
بررسیها نشان دادند که تقریباً همه معیارهای ارزیابی، حداقل در یک زمینه ضعف دارند. مهمترین نقصها عبارتند از:
نبود دقت آماری: یک یافته «تکاندهنده» این بود که تنها اقلیت کوچکی (۱۶ درصد) از معیارها از تخمینهای عدم قطعیت یا آزمونهای آماری برای نشان دادن میزان احتمال صحت نتایج استفاده میکردند.
تعاریف ضعیف: در مواردی که معیارها برای ارزیابی مفاهیمی مانند «بیضرر بودن» هوش مصنوعی طراحی شده بودند، تعریف مفهوم مورد بررسی مبهم یا مورد مناقشه بود، که عملاً کاربرد معیار را کاهش میداد.
این تحقیق در حالی منتشر میشود که نگرانیها در مورد ایمنی مدلهای جدید هوش مصنوعی در حال افزایش است. شرکتهای فناوری به دلیل رقابت، این مدلها را با سرعت بالایی منتشر میکنند.
نمونههای آسیب:
افترا: شرکت گوگل مجبور شد یکی از جدیدترین مدلهای هوش مصنوعی خود به نام جما را پس از اینکه آن مدل، ادعاهای بیپایه و اساسی درباره یک سناتور آمریکایی، از جمله لینکهای خبری جعلی، مطرح کرد، حذف کند. گوگل این اتفاق را نوعی «توهم» ساختن اطلاعات غلط توسط مدل نامید.
آسیب روانی و خودآزاری: شرکت کاراکتر.ای آی پس از حوادثی از جمله خودکشی یک نوجوان ۱۴ ساله که مادرش ادعا کرد تحت تأثیر چت با یک بات هوش مصنوعی قرار گرفته که او را به این کار ترغیب کرده بود، گفتگوهای بدون محدودیت را برای نوجوانان ممنوع کرد.
این گزارش نتیجه میگیرد که با توجه به این آسیبها و نقصهای گسترده در ابزارهای اندازهگیری، «نیاز فوری به استانداردهای مشترک و بهترین شیوهها» برای ارزیابی هوش مصنوعی وجود دارد.
این خبر را اینجا ببینید.











