شفقنا آینده- برخی از محققان فکر می کنند که سیستم های هوش مصنوعی به زودی به هوش سطح انسانی دست خواهند یافت. دیگران فکر می کنند خیلی دور است.
به گزارش شفقنا از نیچر، شرکت فناوری OpenAI ماه گذشته زمانی که آخرین مدل آزمایشی چت بات خود، o3، در آزمونی که نشان دهنده پیشرفت به سمت هوش عمومی مصنوعی (AGI) بود، به امتیاز بالایی دست یافت. O3 OpenAI امتیاز 87.5 درصد را کسب کرد که بهترین امتیاز قبلی را برای سیستم هوش مصنوعی (AI) 55.5 درصدی شکست داد.
فرانسوا شولت، محقق هوش مصنوعی، که در سال 2019 در حین کار در گوگل مستقر در Mountain View، کالیفرنیا، این آزمایش را به نام Corpus انتزاعی و استدلال برای هوش عمومی مصنوعی (ARC-AGI)1 ایجاد کرد، میگوید: این یک پیشرفت واقعی است. Chollet می گوید که نمره بالا در آزمون به این معنی نیست که AGI – به طور کلی به عنوان یک سیستم محاسباتی که می تواند به خوبی انسان ها استدلال، برنامه ریزی و مهارت ها را یاد بگیرد – به دست آمده است، اما o3 “کاملا” قادر به استدلال و استدلال است. “قدرت تعمیم بسیار قابل توجهی دارد”.
محققان از عملکرد o3 در انواع تستها یا معیارها، از جمله آزمون بسیار دشوار FrontierMath که در نوامبر توسط موسسه تحقیقات مجازی Epoch AI اعلام شد، شگفتزده میشوند. دیوید راین، محقق معیار هوش مصنوعی در گروه تحقیقات مدل ارزیابی و تهدید، که در برکلی، کالیفرنیا مستقر است، می گوید: «بسیار چشمگیر است.
اما بسیاری، از جمله Rein، هشدار می دهند که تشخیص اینکه آیا تست ARC-AGI واقعاً ظرفیت هوش مصنوعی برای استدلال و تعمیم را اندازه می گیرد یا خیر، سخت است. رین میگوید: «معیارهای زیادی وجود داشته است که مدعی اندازهگیری چیزی اساسی برای هوش هستند، اما معلوم شد که این کار را نکردهاند. او می گوید که شکار برای آزمایش های بهتر ادامه دارد.
OpenAI، مستقر در سانفرانسیسکو، نحوه عملکرد o3 را فاش نکرده است، اما این سیستم بلافاصله پس از مدل o1 شرکت که از منطق “زنجیره فکری” برای حل مشکلات با صحبت کردن از طریق یک سری مراحل استدلالی استفاده می کند، وارد صحنه شد. برخی از متخصصان فکر می کنند که o3 ممکن است مجموعه ای از زنجیره های فکری مختلف را تولید کند تا به کاهش بهترین پاسخ از طیف وسیعی از گزینه ها کمک کند.
Chollet که اکنون در سیاتل، واشنگتن مستقر است، می گوید که صرف زمان بیشتر برای اصلاح یک پاسخ در زمان آزمون، تفاوت زیادی در نتایج ایجاد می کند. اما o3 هزینه هنگفتی دارد: برای انجام هر کار در تست ARC-AGI، حالت امتیازدهی بالا آن به طور متوسط 14 دقیقه طول کشید و احتمالاً هزاران دلار هزینه داشت. شیانگ یو در دانشگاه کارنگی ملون در دانشگاه کارنگی ملون می گوید (هزینه های محاسباتی تخمین زده می شود، Chollet می گوید، بر اساس میزان هزینه OpenAI از مشتریان در هر توکن یا کلمه، که به عواملی از جمله مصرف برق و هزینه های سخت افزار بستگی دارد.) این “نگرانی های پایداری را افزایش می دهد.” پیتسبورگ، پنسیلوانیا، که مدلهای زبان بزرگ (LLM) را مطالعه میکند که رباتهای گفتگو را تقویت میکنند.
اگرچه اصطلاح AGI اغلب برای توصیف یک سیستم محاسباتی استفاده می شود که توانایی های شناختی انسان را در طیف وسیعی از وظایف برآورده می کند یا از آن فراتر می رود، هیچ تعریف فنی برای آن وجود ندارد. در نتیجه، هیچ اتفاق نظری درباره زمانی که ابزارهای هوش مصنوعی ممکن است به AGI دست یابند، وجود ندارد. برخی می گویند لحظه از قبل فرا رسیده است. دیگران می گویند هنوز دور است.
تست های زیادی برای پیگیری پیشرفت به سمت AGI در حال توسعه هستند. برخی از آنها، از جمله پرسش و پاسخ Google-Proof 2023 Rein، برای ارزیابی عملکرد یک سیستم هوش مصنوعی در مسائل علمی در سطح دکترا در نظر گرفته شده است. میز MLE 2024 OpenAI یک سیستم هوش مصنوعی را در برابر 75 چالش میزبانی شده در Kaggle، یک پلت فرم آنلاین رقابت علم داده، قرار می دهد. چالشها شامل مشکلات دنیای واقعی مانند ترجمه طومارهای باستانی و ساخت واکسنها میشود.
منبع: نیچر