یک تحلیل از سوی Epoch AI، یک مؤسسه تحقیقاتی غیرانتفاعی در حوزه هوش مصنوعی، نشان میدهد که صنعت هوش مصنوعی ممکن است دیگر نتواند برای مدت زیادی، پیشرفتهای چشمگیری در مدلهای استدلالی (Reasoning Models) کسب کند. طبق یافتههای این گزارش، احتمال دارد پیشرفت در مدلهای استدلالی تا یک سال آینده دچار کندی شود.
مدلهای استدلالی مانند مدل o3 از OpenAI در ماههای اخیر باعث پیشرفتهای قابلتوجهی در معیارهای ارزیابی عملکرد هوش مصنوعی شدهاند، بهویژه در حوزههایی مانند ریاضیات و برنامهنویسی. این مدلها میتوانند منابع محاسباتی بیشتری را برای حل مسائل به کار بگیرند، که این موضوع عملکرد آنها را بهبود میبخشد؛ البته این کار زمان بیشتری نسبت به مدلهای سنتی نیاز دارد.
فرآیند توسعه مدلهای استدلالی ابتدا با آموزش یک مدل سنتی با استفاده از حجم عظیمی از داده انجام میشود و سپس از تکنیکی به نام یادگیری تقویتی (Reinforcement Learning) استفاده میشود.
تا کنون، طبق گفته Epoch، آزمایشگاههای پیشرفته هوش مصنوعی مانند OpenAI، از منابع محاسباتی عظیمی در مرحله یادگیری تقویتی استفاده نکردهاند.
اما این روند در حال تغییر است. OpenAI اعلام کرده که برای آموزش مدل o3 تقریباً ۱۰ برابر منابع محاسباتی بیشتری نسبت به مدل پیشین یعنی o1 استفاده کرده است و Epoch گمان میبرد که بیشتر این منابع صرف مرحله یادگیری تقویتی شدهاند. همچنین، دن رابرتس، یکی از محققان OpenAI، اخیراً فاش کرده که برنامههای آینده این شرکت شامل اولویت دادن به یادگیری تقویتی است، با هدف استفاده از منابع محاسباتی حتی بیشتر از مرحله آموزش اولیه مدل.
با این حال، طبق گزارش Epoch، همچنان محدودیتهایی برای میزان منابع محاسباتی قابل استفاده در یادگیری تقویتی وجود دارد.
جاش یو (Josh You)، یکی از تحلیلگران مؤسسه Epoch و نویسنده این تحلیل، توضیح میدهد که در حال حاضر، پیشرفت عملکرد حاصل از آموزش استاندارد مدلهای هوش مصنوعی هر سال حدوداً چهار برابر میشود، در حالی که پیشرفت ناشی از یادگیری تقویتی (Reinforcement Learning) هر ۳ تا ۵ ماه، ده برابر افزایش مییابد.
او ادامه میدهد که روند پیشرفت در آموزش مدلهای استدلالی «احتمالاً تا سال ۲۰۲۶ با مرز کلی پیشرفت هوش مصنوعی همگرا خواهد شد» — به این معنا که میزان جهشهای بزرگ در عملکرد، که اکنون از مسیر یادگیری تقویتی حاصل میشود، در نهایت با سرعت رشد کلی مدلهای هوش مصنوعی برابر خواهد شد و از آن نقطه به بعد، ممکن است رشد سریع فعلی متوقف یا کند شود.