آزمایش‌ها نشان می‌دهند که زمان زیادی طول می‌کشد تا هوش مصنوعی یاد بگیرد که چگونه واقعا فکر کند

دانشگاه ایالتی واشنگتن (WSU) توانایی هوش مصنوعی را برای ارزیابی فرضیه‌های علمی آزمایش کرد – و نتایج رضایت‌بخشی دریافت کرد.

آزمایش ها و نتایج در بالا منتشر شده است بررسی کسب و کار راتگرزشامل بیش از 700 فرضیه ChatGPT 10 بار برای آزمایش هر یک امتحان شد.

در سال 2024، هوش مصنوعی در 76.5 درصد مواقع پاسخ های صحیح داد. در سال 2025، دقت به 80٪ افزایش می یابد. با این حال، با تنظیم برای حدس زدن تصادفی، نتایج هوش مصنوعی تنها 60٪ از روش ساده “poke” بهتر عمل کرد.

هوش مصنوعی بدترین کار را در شناسایی فرضیه ها به عنوان نادرست انجام داد: در اینجا دقت فقط 16.4٪ بود. علاوه بر این، ChatGPT ناسازگاری را نشان داد: با 10 جستجوی یکسان، تنها 73 درصد از عبارات را به درستی ارزیابی کرد.

مسوت چیچک، سرپرست تیم تحقیق، از دانشکده بازرگانی کارسون در WSU، گفت: “مشکل فقط دقت نیست، بلکه ناهماهنگی نیز هست. اگر یک سوال را بارها و بارها بپرسید، هر بار پاسخ های متفاوتی دریافت خواهید کرد.”

تصویر ناخوشایند

او ادامه داد: “ما 10 درخواست را با یک سوال ارسال کردیم. همه چیز یکسان بود. هوش مصنوعی می توانست “درست” را پاسخ دهد. و دفعه بعد – “دروغ”. اول حقیقت، سپس یک دروغ، سپس یک دروغ دیگر، سپس دوباره حقیقت. موارد زیادی وجود داشت که ما پنج پاسخ صحیح و پنج پاسخ اشتباه دریافت کردیم.”

پس آنچه ظاهر می شود، تصویری نسبتاً تیره و تار است: هنگام استفاده از هوش مصنوعی برای کارهای مهم، به ویژه آنهایی که نیاز به استدلال ظریف یا پیچیده دارند، دوز سالمی از شک و احتیاط لازم است. روانی زبانی مدل های خلاق توسط تفکر مفهومی پشتیبانی نمی شود. به گفته چیچک، این نشان می‌دهد که به این زودی‌ها انتظار نمی‌رود دوران به اصطلاح هوش مصنوعی قوی (یعنی هوش مصنوعی جهانی یا جهانی) که واقعاً می‌تواند فکر کند، مورد تبلیغ قرار گیرد.

این محقق توضیح می‌دهد: “ابزارهای فعلی هوش مصنوعی دنیا را آنطور که ما می‌فهمیم، درک نمی‌کنند. آنها مغز ندارند. آنها فقط به خاطر می‌آورند و می‌توانند درک درستی را منتقل کنند، اما خودشان متوجه نمی‌شوند که در مورد چه چیزی صحبت می‌کنند.”

چگونه بررسی کردند؟

برای آزمایش توانایی ابزارهای مصنوعی مصنوعی در دسترس عموم برای پاسخ دادن به سؤالاتی که نیاز به تجزیه و تحلیل ظریف و پیچیده دارند، 719 فرضیه از مقالات علمی منتشر شده در مجلات تجاری از سال 2021 به دست آمد. این سؤال که آیا یک مطالعه از یک فرضیه خاص پشتیبانی می کند یا نه، اغلب پیچیده است: عوامل مختلفی وجود دارد که می توانند نتایج را مغایر یا متعادل کنند. تبدیل پاسخ به “درست” یا “نادرست” به سادگی مستلزم توانایی استدلال است.

در سال 2024، نسخه رایگان ChatGPT-3.5 مورد آزمایش قرار گرفت و در سال 2025، نسخه مینی رایگان ChatGPT-5 به روز شد. دقت کلی بین نسخه ها مشابه باقی می ماند. هنگامی که نتایج برای احتمال حدس زدن تصادفی تنظیم شد (به هر حال، یک “پوک” ساده 50٪ احتمال درستی دارد)، معلوم شد که در هر دو آزمایش، هوش مصنوعی تنها 60٪ مواقع از شانس بهتر عمل می کند.

چه باید کرد

این دانشمند گفت: این یافته‌ها یک نقص کلیدی در مدل‌های زبانی بزرگ را برجسته می‌کند، این دانشمند گفت: اگرچه آنها می‌توانند زبان روان و جذاب تولید کنند، اما توانایی آنها در استدلال درباره سؤالات پیچیده اغلب ضعیف می‌شود و گاهی اوقات آنها را قادر به ارائه توضیحات قانع‌کننده برای پاسخ‌های اشتباه نمی‌کند.

این مطالعه فقط ChatGPT را آزمایش کرد، اما Cicek آزمایش‌های مشابهی را با سایر ابزارهای هوش مصنوعی انجام داد و داده‌های مشابهی را یافت.

او توصیه کرد: “همیشه نگرش شکاکانه خود را حفظ کنید. من مخالف هوش مصنوعی نیستم. من هم از آن استفاده می کنم. اما شما باید بسیار مراقب باشید.”

چه داغ است

ترامپ از متحدان آمریکا عصبانی است

خواننده MakSim در مورد زندگی خود در ایستگاه قطار در مسکو صحبت می کند

آزمایش‌ها نشان می‌دهند که زمان زیادی طول می‌کشد تا هوش مصنوعی یاد بگیرد که چگونه واقعا فکر کند

از پسکوف نظرسنجی درباره مسدود کردن تلگرام پرسیده شد

IKI RAS: خورشید پس از یک انفجار قوی پلاسما را به سمت زمین پاشید

جشن مقدس گول ها هزاران اسکلت را در زیر یک تپه بورگوندی کشف کرد

ترامپ از متحدان آمریکا عصبانی است

خواننده MakSim در مورد زندگی خود در ایستگاه قطار در مسکو صحبت می کند