هذیان گویی ChatGPT بیشتر شده است

بهروز فیض
توسط:
0

 مدل‌های هوش مصنوعی o3 و o4-mini که به‌تازگی توسط OpenAI معرفی شده‌اند، از بسیاری جهات پیشرفته و پیشرفته‌ترین مدل‌های موجود محسوب می‌شوند. با این حال، این مدل‌های جدید همچنان دچار «هذیان‌گویی» یا تولید اطلاعات نادرست می‌شوند — و در واقع، حتی بیشتر از برخی مدل‌های قدیمی‌تر OpenAI این مشکل را دارند.



هذیان‌گویی یکی از بزرگ‌ترین و سخت‌ترین چالش‌هایی است که در زمینه هوش مصنوعی وجود دارد و حتی بهترین سیستم‌های امروزی نیز از آن آسیب می‌بینند. به‌طور سنتی، هر مدل جدیدی نسبت به نسخه قبلی خود در زمینه کاهش هذیان‌گویی بهبودهایی داشته است. اما این روند ظاهراً در مورد o3 و o4-mini صدق نمی‌کند.

بر اساس آزمایش‌های داخلی OpenAI، مدل‌های o3 و o4-mini که به عنوان مدل‌های «استدلالی» شناخته می‌شوند، بیشتر از مدل‌های استدلالی قبلی این شرکت — یعنی o1، o1-mini، و o3-mini — و حتی بیشتر از مدل‌های غیر استدلالی مانند GPT-4o دچار هذیان‌گویی می‌شوند.

شاید نگران‌کننده‌تر این باشد که حتی خود OpenAI هم دقیقاً نمی‌داند چرا این اتفاق می‌افتد.

در گزارش فنی مربوط به o3 و o4-mini، این شرکت نوشته است که «به تحقیقات بیشتری نیاز است» تا مشخص شود چرا با بزرگ‌تر شدن مدل‌های استدلالی، نرخ هذیان‌گویی آن‌ها افزایش می‌یابد. البته، o3 و o4-mini در برخی زمینه‌ها مانند برنامه‌نویسی و ریاضیات عملکرد بهتری دارند. اما به دلیل این‌که این مدل‌ها «ادعاهای بیشتری به زبان می‌آورند»، هم ادعاهای درست‌تری مطرح می‌کنند و هم ادعاهای نادرست/هذیانی بیشتری دارند.

OpenAI اعلام کرده که مدل o3 در پاسخ به ۳۳٪ از سؤالات مربوط به PersonQA — بنچمارک داخلی این شرکت برای ارزیابی دانش مدل درباره افراد — دچار هذیان‌گویی شده است. این میزان تقریباً دو برابر نرخ هذیان‌گویی مدل‌های قبلی o1 و o3-mini است که به ترتیب ۱۶٪ و ۱۴.۸٪ بوده‌اند. مدل o4-mini عملکرد بدتری داشته و در ۴۸٪ از سؤالات مربوط به PersonQA اطلاعات نادرست تولید کرده است.

برچسب :

ارسال یک نظر

0نظرات

ارسال یک نظر (0)