
یک گروه پژوهشگر از دانشگاهها و استارتاپهای معتبر تصمیم گرفتند با استفاده از حدود ۶۰۰ معمای Sunday Puzzle، مرزهای استدلال مدلهای هوش مصنوعی را بسنجند. آنها نشان دادند که چگونه مدلهایی همچون o1 و DeepSeek’s R1، در مواجهه با معماهای غیرمرتبط با دانش تخصصی عمیق، به شیوهای شبیه به واکنشهای انسانی عمل میکنند؛ از جمله ابراز ناامیدی و ارائه پاسخهای نادرست در مواقع بحرانی. این یافتهها نه تنها دید تازهای نسبت به ارزیابی هوش مصنوعی ارائه میدهد، بلکه ضرورت استفاده از بنچمارکهایی را برجسته میکند که برای عموم قابل فهم و استفاده باشند.
تحقیق حاضر اهمیت استفاده از معماهایی را به ما نشان میدهد که بدون نیاز به دانش پیشرفته، بتوانند توانمندیهای استدلالی هوش مصنوعی را به خوبی به چالش بکشند. معماهای Sunday Puzzle، که به صورت هفتگی توسط Will Shortz در NPR ارائه میشوند، به گونهای طراحی شدهاند که حتی برای ذهنهای تیزبین انسانی نیز دشوار باشند. این ویژگیها، پژوهشگران را بر آن داشت تا از این معماها به عنوان معیاری برای سنجش رفتارهای استدلالی مدلهای هوش مصنوعی استفاده کنند. در این پژوهش، مشاهده شد که برخی از مدلها، مانند DeepSeek’s R1، در مواجهه با سوالات سخت گاهی به نوعی «تسلیم» شده و به جای ارائه پاسخی صحیح، اظهار ناامیدی میکنند؛ رفتاری که بسیار انسانی به نظر میرسد.
این پژوهش نکات جالبی از جمله فرآیند تفکری پیچیده مدلهای استدلالی را روشن میکند؛ فرآیندی که در آن مدلها قبل از ارائه پاسخ، به دقت گزینههای خود را بررسی و حتی گاهی پس از اعلام پاسخ، در جستجوی گزینههای بهتری میگردند. این رفتارها، اگرچه نشان از تواناییهای عمیق در تحلیل دارند، اما همچنین نقاط ضعفی مانند تأخیر در ارائه پاسخ و ارائه توضیحات غیرمنطقی را نیز به همراه دارند. علاوه بر این، پژوهشگران به محدودیتهایی چون محوریت زبانی و فرهنگی معماها اشاره کردهاند؛ چرا که استفاده از معماهای انگلیسی-آمریکایی میتواند زمینههای تطبیقپذیری کمتری را برای سنجش عملکرد مدلهای هوش مصنوعی در بسترهای چندزبانه فراهم آورد.
با توجه به نتایج به دست آمده، مدل o1 به عنوان برترین عملکرد با نمره ۵۹ درصد برجسته شده است؛ در حالی که مدلهای دیگر امتیازهای پایینتری کسب کردهاند. این نتایج به ما میآموزد که آزمونهای استدلالی باید از ابعاد گستردهتری برخوردار باشند تا بتوانند جنبههای انسانی و خلاقانه هوش مصنوعی را به شیوهای کامل منعکس کنند. پژوهشگران بر این باورند که ارائه بنچمارکی که نیاز به دانش پیشرفته نداشته باشد، میتواند افقهای نوینی را برای پژوهشگران از رشتههای مختلف باز کند و زمینهساز توسعه راهحلهای بهینهتر در آینده شود. این امر به ویژه در زمانی که هوش مصنوعی در زندگی روزمره نفوذ بیشتری پیدا میکند، اهمیت دوچندان پیدا میکند؛ زیرا درک عمومی از قابلیتها و محدودیتهای این فناوری میتواند به تصمیمگیریهای آگاهانهتر در سطوح مختلف کمک کند.