دانشگاه ایالتی واشنگتن (WSU) توانایی هوش مصنوعی را برای ارزیابی فرضیههای علمی آزمایش کرد – و نتایج رضایتبخشی دریافت کرد.

آزمایش ها و نتایج در بالا منتشر شده است بررسی کسب و کار راتگرزشامل بیش از 700 فرضیه ChatGPT 10 بار برای آزمایش هر یک امتحان شد.
در سال 2024، هوش مصنوعی در 76.5 درصد مواقع پاسخ های صحیح داد. در سال 2025، دقت به 80٪ افزایش می یابد. با این حال، با تنظیم برای حدس زدن تصادفی، نتایج هوش مصنوعی تنها 60٪ از روش ساده “poke” بهتر عمل کرد.
هوش مصنوعی بدترین کار را در شناسایی فرضیه ها به عنوان نادرست انجام داد: در اینجا دقت فقط 16.4٪ بود. علاوه بر این، ChatGPT ناسازگاری را نشان داد: با 10 جستجوی یکسان، تنها 73 درصد از عبارات را به درستی ارزیابی کرد.
مسوت چیچک، سرپرست تیم تحقیق، از دانشکده بازرگانی کارسون در WSU، گفت: “مشکل فقط دقت نیست، بلکه ناهماهنگی نیز هست. اگر یک سوال را بارها و بارها بپرسید، هر بار پاسخ های متفاوتی دریافت خواهید کرد.”
تصویر ناخوشایند
او ادامه داد: “ما 10 درخواست را با یک سوال ارسال کردیم. همه چیز یکسان بود. هوش مصنوعی می توانست “درست” را پاسخ دهد. و دفعه بعد – “دروغ”. اول حقیقت، سپس یک دروغ، سپس یک دروغ دیگر، سپس دوباره حقیقت. موارد زیادی وجود داشت که ما پنج پاسخ صحیح و پنج پاسخ اشتباه دریافت کردیم.”
پس آنچه ظاهر می شود، تصویری نسبتاً تیره و تار است: هنگام استفاده از هوش مصنوعی برای کارهای مهم، به ویژه آنهایی که نیاز به استدلال ظریف یا پیچیده دارند، دوز سالمی از شک و احتیاط لازم است. روانی زبانی مدل های خلاق توسط تفکر مفهومی پشتیبانی نمی شود. به گفته چیچک، این نشان میدهد که به این زودیها انتظار نمیرود دوران به اصطلاح هوش مصنوعی قوی (یعنی هوش مصنوعی جهانی یا جهانی) که واقعاً میتواند فکر کند، مورد تبلیغ قرار گیرد.
این محقق توضیح میدهد: “ابزارهای فعلی هوش مصنوعی دنیا را آنطور که ما میفهمیم، درک نمیکنند. آنها مغز ندارند. آنها فقط به خاطر میآورند و میتوانند درک درستی را منتقل کنند، اما خودشان متوجه نمیشوند که در مورد چه چیزی صحبت میکنند.”
چگونه بررسی کردند؟
برای آزمایش توانایی ابزارهای مصنوعی مصنوعی در دسترس عموم برای پاسخ دادن به سؤالاتی که نیاز به تجزیه و تحلیل ظریف و پیچیده دارند، 719 فرضیه از مقالات علمی منتشر شده در مجلات تجاری از سال 2021 به دست آمد. این سؤال که آیا یک مطالعه از یک فرضیه خاص پشتیبانی می کند یا نه، اغلب پیچیده است: عوامل مختلفی وجود دارد که می توانند نتایج را مغایر یا متعادل کنند. تبدیل پاسخ به “درست” یا “نادرست” به سادگی مستلزم توانایی استدلال است.
در سال 2024، نسخه رایگان ChatGPT-3.5 مورد آزمایش قرار گرفت و در سال 2025، نسخه مینی رایگان ChatGPT-5 به روز شد. دقت کلی بین نسخه ها مشابه باقی می ماند. هنگامی که نتایج برای احتمال حدس زدن تصادفی تنظیم شد (به هر حال، یک “پوک” ساده 50٪ احتمال درستی دارد)، معلوم شد که در هر دو آزمایش، هوش مصنوعی تنها 60٪ مواقع از شانس بهتر عمل می کند.
چه باید کرد
این دانشمند گفت: این یافتهها یک نقص کلیدی در مدلهای زبانی بزرگ را برجسته میکند، این دانشمند گفت: اگرچه آنها میتوانند زبان روان و جذاب تولید کنند، اما توانایی آنها در استدلال درباره سؤالات پیچیده اغلب ضعیف میشود و گاهی اوقات آنها را قادر به ارائه توضیحات قانعکننده برای پاسخهای اشتباه نمیکند.
این مطالعه فقط ChatGPT را آزمایش کرد، اما Cicek آزمایشهای مشابهی را با سایر ابزارهای هوش مصنوعی انجام داد و دادههای مشابهی را یافت.
او توصیه کرد: “همیشه نگرش شکاکانه خود را حفظ کنید. من مخالف هوش مصنوعی نیستم. من هم از آن استفاده می کنم. اما شما باید بسیار مراقب باشید.”