مدلهای هوش مصنوعی o3 و o4-mini که بهتازگی توسط OpenAI معرفی شدهاند، از بسیاری جهات پیشرفته و پیشرفتهترین مدلهای موجود محسوب میشوند. با این حال، این مدلهای جدید همچنان دچار «هذیانگویی» یا تولید اطلاعات نادرست میشوند — و در واقع، حتی بیشتر از برخی مدلهای قدیمیتر OpenAI این مشکل را دارند.
هذیانگویی یکی از بزرگترین و سختترین چالشهایی است که در زمینه هوش مصنوعی وجود دارد و حتی بهترین سیستمهای امروزی نیز از آن آسیب میبینند. بهطور سنتی، هر مدل جدیدی نسبت به نسخه قبلی خود در زمینه کاهش هذیانگویی بهبودهایی داشته است. اما این روند ظاهراً در مورد o3 و o4-mini صدق نمیکند.
بر اساس آزمایشهای داخلی OpenAI، مدلهای o3 و o4-mini که به عنوان مدلهای «استدلالی» شناخته میشوند، بیشتر از مدلهای استدلالی قبلی این شرکت — یعنی o1، o1-mini، و o3-mini — و حتی بیشتر از مدلهای غیر استدلالی مانند GPT-4o دچار هذیانگویی میشوند.
شاید نگرانکنندهتر این باشد که حتی خود OpenAI هم دقیقاً نمیداند چرا این اتفاق میافتد.
در گزارش فنی مربوط به o3 و o4-mini، این شرکت نوشته است که «به تحقیقات بیشتری نیاز است» تا مشخص شود چرا با بزرگتر شدن مدلهای استدلالی، نرخ هذیانگویی آنها افزایش مییابد. البته، o3 و o4-mini در برخی زمینهها مانند برنامهنویسی و ریاضیات عملکرد بهتری دارند. اما به دلیل اینکه این مدلها «ادعاهای بیشتری به زبان میآورند»، هم ادعاهای درستتری مطرح میکنند و هم ادعاهای نادرست/هذیانی بیشتری دارند.
OpenAI اعلام کرده که مدل o3 در پاسخ به ۳۳٪ از سؤالات مربوط به PersonQA — بنچمارک داخلی این شرکت برای ارزیابی دانش مدل درباره افراد — دچار هذیانگویی شده است. این میزان تقریباً دو برابر نرخ هذیانگویی مدلهای قبلی o1 و o3-mini است که به ترتیب ۱۶٪ و ۱۴.۸٪ بودهاند. مدل o4-mini عملکرد بدتری داشته و در ۴۸٪ از سؤالات مربوط به PersonQA اطلاعات نادرست تولید کرده است.