این روزها، هوش مصنوعی میتواند تصاویر فوتورئالیستی ایجاد کند، رمان بنویسد، تکالیف شما را انجام دهد و حتی ساختار پروتئینها را پیشبینی کند. با این حال، تحقیقات جدید نشان میدهد که این فناوری اغلب در انجام یک کار بسیار ساده ناکام میماند: گفتن زمان.
پژوهشگران دانشگاه ادینبرو توانایی هفت مدل مشهور زبانی چندوجهی بزرگ (مدلهایی از هوش مصنوعی که میتوانند انواع مختلف رسانه را تفسیر و تولید کنند) را در پاسخگویی به سؤالات مرتبط با زمان بر اساس تصاویر مختلف از ساعتها یا تقویمها آزمایش کردهاند. مطالعه آنها که قرار است در ماه آوریل منتشر شود و در حال حاضر در سرور پیشچاپ arXiv میزبانی میشود، نشان میدهد که این مدلهای زبانی در انجام این وظایف ساده دچار مشکل هستند.
پژوهشگران در این مطالعه نوشتند: «توانایی تفسیر و استدلال درباره زمان از ورودیهای بصری برای بسیاری از کاربردهای دنیای واقعی — از برنامهریزی رویدادها گرفته تا سیستمهای خودران — بسیار حیاتی است. با وجود پیشرفت در مدلهای زبانی چندوجهی بزرگ (MLLMs)، بیشتر تحقیقات بر روی تشخیص اشیا، تولید توضیحات تصویری یا درک صحنه متمرکز بوده است و استنتاج زمانی کمتر مورد بررسی قرار گرفته است.»
این تیم مدلهای GPT-4o و GPT-o1 از OpenAI؛ مدل Gemini 2.0 از Google DeepMind؛ مدل Claude 3.5 Sonnet از Anthropic؛ مدل Llama 3.2-11B-Vision-Instruct از Meta؛ مدل Qwen2-VL7B-Instruct از Alibaba؛ و مدل MiniCPM-V-2.6 از ModelBest را آزمایش کردند. آنها تصاویر مختلفی از ساعتهای آنالوگ — ساعتهایی با اعداد رومی، رنگهای صفحه مختلف و حتی برخی بدون عقربه ثانیهشمار — و همچنین تصاویر ۱۰ سال از تقویمها را در اختیار مدلها قرار دادند.
برای تصاویر ساعت، پژوهشگران از مدلهای زبانی پرسیدند: «چه ساعتی روی ساعت نشان داده شده است؟» برای تصاویر تقویم نیز سؤالات سادهای مانند «روز اول سال نو چه روزی از هفته است؟» و پرسشهای دشوارتری از جمله «صد و پنجاه و سومین روز سال چه روزی است؟» مطرح کردند.
«خواندن ساعت آنالوگ و درک تقویم شامل مراحل شناختی پیچیدهای است: این کارها به شناسایی بصری دقیق (مثلاً موقعیت عقربههای ساعت، چیدمان خانههای روز) و استدلال عددی غیرساده (مثلاً محاسبه فاصله روزها) نیاز دارند»، پژوهشگران توضیح دادند.
بهطور کلی، سیستمهای هوش مصنوعی عملکرد خوبی نداشتند. آنها زمان را از روی ساعتهای آنالوگ در کمتر از ۲۵٪ موارد به درستی خواندند. مدلها در تشخیص ساعتهایی با اعداد رومی و عقربههای استیلایزه (دارای سبک خاص) به همان اندازه دچار مشکل شدند که در خواندن ساعتهایی که فاقد عقربه ثانیهشمار بودند. این موضوع نشان میدهد که مشکل ممکن است ناشی از دشواری در تشخیص عقربهها و تفسیر زاویهها روی صفحه ساعت باشد.
مدل Gemini-2.0 از گوگل بالاترین امتیاز را در آزمایش خواندن ساعت کسب کرد، در حالی که مدل GPT-o1 در آزمایش تقویم با دقت ۸۰٪ عملکرد بهتری نسبت به سایر رقبا داشت. اما حتی در این صورت، موفقترین مدل زبانی چندوجهی (MLLM) در کار با تقویم هنوز حدود ۲۰٪ مواقع اشتباه داشت.
روهیت ساکسنا (Rohit Saxena)، یکی از نویسندگان این مطالعه و دانشجوی دکتری در دانشکده انفورماتیک دانشگاه ادینبرو، در بیانیهای از دانشگاه گفت:
«بیشتر مردم از سنین پایین قادر به گفتن زمان و استفاده از تقویم هستند. یافتههای ما نشاندهنده فاصله قابلتوجهی در توانایی هوش مصنوعی برای انجام مهارتهایی است که برای انسانها کاملاً ابتدایی محسوب میشوند. این کاستیها باید برطرف شوند تا سیستمهای هوش مصنوعی بتوانند به طور موفقیتآمیز در کاربردهای واقعی و حساس به زمان، مانند برنامهریزی، خودکارسازی و فناوریهای کمکی، ادغام شوند.»
بنابراین، در حالی که ممکن است هوش مصنوعی بتواند تکالیف شما را انجام دهد، اما برای پایبندی به مهلتها چندان قابل اعتماد نیست!