آیا xAi درباره توانایی هوش مصنوعی گراک دروغ گفته است؟

بهروز فیض
توسط:
0

 مباحث پیرامون معیارهای ارزیابی هوش مصنوعی—و نحوه گزارش آن‌ها توسط آزمایشگاه‌های هوش مصنوعی—به فضای عمومی کشیده شده است.



این هفته، یکی از کارمندان OpenAI شرکت xAI، متعلق به ایلان ماسک را متهم کرد که نتایج گمراه‌کننده‌ای از عملکرد جدیدترین مدل هوش مصنوعی خود، Grok 3، منتشر کرده است. در مقابل، ایگور بابوشکین، یکی از بنیان‌گذاران xAI، تأکید کرد که این شرکت هیچ اشتباهی مرتکب نشده است.

واقعیت احتمالاً جایی در میان این دو ادعا قرار دارد.

در یک پست منتشرشده در وبلاگ xAI، این شرکت نموداری را منتشر کرد که عملکرد Grok 3 را بر روی AIME 2025 نشان می‌دهد—مجموعه‌ای از سوالات دشوار ریاضی که از یک المپیاد ریاضی اخیر گردآوری شده است. برخی از کارشناسان اعتبار AIME را به عنوان یک معیار سنجش هوش مصنوعی زیر سوال برده‌اند، اما این آزمون و نسخه‌های قدیمی‌تر آن معمولاً برای ارزیابی توانایی ریاضی مدل‌های هوش مصنوعی استفاده می‌شوند.

نمودار xAI نشان می‌دهد که دو نسخه از Grok 3—یعنی Grok 3 Reasoning Beta و Grok 3 mini Reasoning—عملکرد بهتری نسبت به مدل o3-mini-high از OpenAI در آزمون AIME 2025 داشته‌اند. اما کارمندان OpenAI در X (توییتر سابق) به سرعت اشاره کردند که xAI نمره o3-mini-high در "cons@64" را در نمودار خود لحاظ نکرده است.

اما cons@64 چیست؟
"consensus@64" به این معناست که مدل ۶۴ بار فرصت دارد تا به هر سؤال در آزمون پاسخ دهد، و پاسخی که بیشتر از همه تکرار شده است، به عنوان جواب نهایی در نظر گرفته می‌شود. همان‌طور که قابل تصور است، این روش می‌تواند به طور قابل توجهی نمرات مدل‌ها را افزایش دهد. حذف این معیار از نمودار می‌تواند باعث شود که یک مدل برتر از مدل‌های دیگر به نظر برسد، در حالی که در واقعیت این‌طور نیست.

با در نظر گرفتن نمرات AIME 2025 در حالت "@1"—یعنی اولین پاسخ ثبت‌شده مدل‌ها—مشخص می‌شود که Grok 3 Reasoning Beta و Grok 3 mini Reasoning عملکرد ضعیف‌تری نسبت به o3-mini-high داشته‌اند. حتی Grok 3 Reasoning Beta اندکی از مدل o1 با تنظیمات "medium" OpenAI عقب‌تر است.

با این حال، xAI همچنان Grok 3 را به عنوان "باهوش‌ترین هوش مصنوعی جهان" تبلیغ می‌کند. 😏

برچسب :

ارسال یک نظر

0نظرات

ارسال یک نظر (0)