مدل های هوش مصنوعی در درک ساعت و زمان مشکل دارند

بهروز فیض
توسط:
0



 این روزها، هوش مصنوعی می‌تواند تصاویر فوتورئالیستی ایجاد کند، رمان بنویسد، تکالیف شما را انجام دهد و حتی ساختار پروتئین‌ها را پیش‌بینی کند. با این حال، تحقیقات جدید نشان می‌دهد که این فناوری اغلب در انجام یک کار بسیار ساده ناکام می‌ماند: گفتن زمان.


پژوهشگران دانشگاه ادینبرو توانایی هفت مدل مشهور زبانی چندوجهی بزرگ (مدل‌هایی از هوش مصنوعی که می‌توانند انواع مختلف رسانه را تفسیر و تولید کنند) را در پاسخگویی به سؤالات مرتبط با زمان بر اساس تصاویر مختلف از ساعت‌ها یا تقویم‌ها آزمایش کرده‌اند. مطالعه آن‌ها که قرار است در ماه آوریل منتشر شود و در حال حاضر در سرور پیش‌چاپ arXiv میزبانی می‌شود، نشان می‌دهد که این مدل‌های زبانی در انجام این وظایف ساده دچار مشکل هستند.

پژوهشگران در این مطالعه نوشتند: «توانایی تفسیر و استدلال درباره زمان از ورودی‌های بصری برای بسیاری از کاربردهای دنیای واقعی — از برنامه‌ریزی رویدادها گرفته تا سیستم‌های خودران — بسیار حیاتی است. با وجود پیشرفت در مدل‌های زبانی چندوجهی بزرگ (MLLMs)، بیشتر تحقیقات بر روی تشخیص اشیا، تولید توضیحات تصویری یا درک صحنه متمرکز بوده است و استنتاج زمانی کمتر مورد بررسی قرار گرفته است.»


این تیم مدل‌های GPT-4o و GPT-o1 از OpenAI؛ مدل Gemini 2.0 از Google DeepMind؛ مدل Claude 3.5 Sonnet از Anthropic؛ مدل Llama 3.2-11B-Vision-Instruct از Meta؛ مدل Qwen2-VL7B-Instruct از Alibaba؛ و مدل MiniCPM-V-2.6 از ModelBest را آزمایش کردند. آن‌ها تصاویر مختلفی از ساعت‌های آنالوگ — ساعت‌هایی با اعداد رومی، رنگ‌های صفحه مختلف و حتی برخی بدون عقربه ثانیه‌شمار — و همچنین تصاویر ۱۰ سال از تقویم‌ها را در اختیار مدل‌ها قرار دادند.

برای تصاویر ساعت، پژوهشگران از مدل‌های زبانی پرسیدند: «چه ساعتی روی ساعت نشان داده شده است؟» برای تصاویر تقویم نیز سؤالات ساده‌ای مانند «روز اول سال نو چه روزی از هفته است؟» و پرسش‌های دشوارتری از جمله «صد و پنجاه و سومین روز سال چه روزی است؟» مطرح کردند.


«خواندن ساعت آنالوگ و درک تقویم شامل مراحل شناختی پیچیده‌ای است: این کارها به شناسایی بصری دقیق (مثلاً موقعیت عقربه‌های ساعت، چیدمان خانه‌های روز) و استدلال عددی غیرساده (مثلاً محاسبه فاصله روزها) نیاز دارند»، پژوهشگران توضیح دادند.

به‌طور کلی، سیستم‌های هوش مصنوعی عملکرد خوبی نداشتند. آن‌ها زمان را از روی ساعت‌های آنالوگ در کمتر از ۲۵٪ موارد به درستی خواندند. مدل‌ها در تشخیص ساعت‌هایی با اعداد رومی و عقربه‌های استیلایزه (دارای سبک خاص) به همان اندازه دچار مشکل شدند که در خواندن ساعت‌هایی که فاقد عقربه ثانیه‌شمار بودند. این موضوع نشان می‌دهد که مشکل ممکن است ناشی از دشواری در تشخیص عقربه‌ها و تفسیر زاویه‌ها روی صفحه ساعت باشد.


مدل Gemini-2.0 از گوگل بالاترین امتیاز را در آزمایش خواندن ساعت کسب کرد، در حالی که مدل GPT-o1 در آزمایش تقویم با دقت ۸۰٪ عملکرد بهتری نسبت به سایر رقبا داشت. اما حتی در این صورت، موفق‌ترین مدل زبانی چندوجهی (MLLM) در کار با تقویم هنوز حدود ۲۰٪ مواقع اشتباه داشت.

روهیت ساکسنا (Rohit Saxena)، یکی از نویسندگان این مطالعه و دانشجوی دکتری در دانشکده انفورماتیک دانشگاه ادینبرو، در بیانیه‌ای از دانشگاه گفت:
«بیشتر مردم از سنین پایین قادر به گفتن زمان و استفاده از تقویم هستند. یافته‌های ما نشان‌دهنده فاصله قابل‌توجهی در توانایی هوش مصنوعی برای انجام مهارت‌هایی است که برای انسان‌ها کاملاً ابتدایی محسوب می‌شوند. این کاستی‌ها باید برطرف شوند تا سیستم‌های هوش مصنوعی بتوانند به طور موفقیت‌آمیز در کاربردهای واقعی و حساس به زمان، مانند برنامه‌ریزی، خودکارسازی و فناوری‌های کمکی، ادغام شوند.»


بنابراین، در حالی که ممکن است هوش مصنوعی بتواند تکالیف شما را انجام دهد، اما برای پایبندی به مهلت‌ها چندان قابل اعتماد نیست!

برچسب :

ارسال یک نظر

0نظرات

ارسال یک نظر (0)