مباحث پیرامون معیارهای ارزیابی هوش مصنوعی—و نحوه گزارش آنها توسط آزمایشگاههای هوش مصنوعی—به فضای عمومی کشیده شده است.
این هفته، یکی از کارمندان OpenAI شرکت xAI، متعلق به ایلان ماسک را متهم کرد که نتایج گمراهکنندهای از عملکرد جدیدترین مدل هوش مصنوعی خود، Grok 3، منتشر کرده است. در مقابل، ایگور بابوشکین، یکی از بنیانگذاران xAI، تأکید کرد که این شرکت هیچ اشتباهی مرتکب نشده است.
واقعیت احتمالاً جایی در میان این دو ادعا قرار دارد.
در یک پست منتشرشده در وبلاگ xAI، این شرکت نموداری را منتشر کرد که عملکرد Grok 3 را بر روی AIME 2025 نشان میدهد—مجموعهای از سوالات دشوار ریاضی که از یک المپیاد ریاضی اخیر گردآوری شده است. برخی از کارشناسان اعتبار AIME را به عنوان یک معیار سنجش هوش مصنوعی زیر سوال بردهاند، اما این آزمون و نسخههای قدیمیتر آن معمولاً برای ارزیابی توانایی ریاضی مدلهای هوش مصنوعی استفاده میشوند.
نمودار xAI نشان میدهد که دو نسخه از Grok 3—یعنی Grok 3 Reasoning Beta و Grok 3 mini Reasoning—عملکرد بهتری نسبت به مدل o3-mini-high از OpenAI در آزمون AIME 2025 داشتهاند. اما کارمندان OpenAI در X (توییتر سابق) به سرعت اشاره کردند که xAI نمره o3-mini-high در "cons@64" را در نمودار خود لحاظ نکرده است.
اما cons@64 چیست؟
"consensus@64" به این معناست که مدل ۶۴ بار فرصت دارد تا به هر سؤال در آزمون پاسخ دهد، و پاسخی که بیشتر از همه تکرار شده است، به عنوان جواب نهایی در نظر گرفته میشود. همانطور که قابل تصور است، این روش میتواند به طور قابل توجهی نمرات مدلها را افزایش دهد. حذف این معیار از نمودار میتواند باعث شود که یک مدل برتر از مدلهای دیگر به نظر برسد، در حالی که در واقعیت اینطور نیست.
با در نظر گرفتن نمرات AIME 2025 در حالت "@1"—یعنی اولین پاسخ ثبتشده مدلها—مشخص میشود که Grok 3 Reasoning Beta و Grok 3 mini Reasoning عملکرد ضعیفتری نسبت به o3-mini-high داشتهاند. حتی Grok 3 Reasoning Beta اندکی از مدل o1 با تنظیمات "medium" OpenAI عقبتر است.
با این حال، xAI همچنان Grok 3 را به عنوان "باهوشترین هوش مصنوعی جهان" تبلیغ میکند. 😏