شفقنا- استارتآپ چینی دیپسیک (DeepSeek) با همکاری دانشگاه چینگهوا، تکنیک ترکیبی جدیدی برای بهبود استدلال مدلهای زبانی بزرگ ارائه کرده که نتایج سریعتر و همسوتر با ترجحات انسانی تولید میکند.
به گزارش سرویس ترجمه شفقنا، شرکت هوش مصنوعی DeepSeek چین، روشی نوین برای ارتقای قابلیتهای استدلالی مدلهای زبانی بزرگ (LLM) معرفی کرده است. این اقدام در حالی صورت میگیرد که جامعه فناوری مشتاقانه منتظر عرضه مدل نسل بعدی این شرکت است.
بر اساس مقالهای که به تازگی منتشر شده است، DeepSeek با همکاری پژوهشگران دانشگاه چینگهوا، تکنیکی توسعه داده که دو روش «مدلسازی پاداش تولیدی» (GRM) و «تنظیم انتقادی خودمحور» را ترکیب میکند. این رویکرد دوگانه به مدلهای زبانی کمک میکند تا پاسخهای بهتر و سریعتری به پرسشهای عمومی ارائه دهند.
پژوهشگران در این مقاله ذکر کردهاند که مدلهای DeepSeek-GRM عملکردی رقابتی با مدلهای پاداش عمومی قوی داشتهاند. مدلسازی پاداش فرآیندی است که مدلهای زبانی را به سمت ترجیحات انسانی هدایت میکند.
به گفته محققان،DeepSeek قصد دارد مدلهای GRM را به صورت متنباز منتشر کند، اما جدول زمانی مشخصی برای این کار ارائه نکرده است.
انتشار این خبر در حالی صورت میگیرد که گمانهزنیها درباره حرکت بعدی این استارتآپ پس از جلب توجه جهانی به مدل پایه V3 و مدل استدلالی R1 آن افزایش یافته است.
ماه گذشته، خبرگزاری رویترز گزارش داد که مدل DeepSeek-R2 که جانشین مدل R1 محسوب میشود، ممکن است به زودی و احتمالاً در همین ماه منتشر شود. این شرکت قصد دارد از موقعیت رو به رشد خود نهایت استفاده را ببرد. عرضه مدل DeepSeek-R1 با عملکرد مقرونبهصرفه و رقابتی خود، جامعه فناوری جهانی را تحت تأثیر قرار داد.
این خبر را اینجا ببینید.











