مدتی پس از پیوستن «هانتر لایتمن» به شرکت OpenAI به عنوان پژوهشگر در سال ۲۰۲۲، او شاهد راهاندازی ChatGPT توسط همکارانش بود؛ یکی از محصولاتی که با سریعترین رشد در تاریخ همراه شد. در همین حال، لایتمن بیسروصدا روی تیمی کار میکرد که وظیفه داشت مدلهای OpenAI را برای حل مسائل مسابقات ریاضی دبیرستانی آموزش دهد.
امروزه این تیم، که با نام MathGen شناخته میشود، به عنوان یکی از عناصر کلیدی در تلاش OpenAI برای ساخت مدلهای استدلالی هوش مصنوعی شناخته میشود؛ فناوری اصلی پشت عوامل (agents) هوش مصنوعی که میتوانند وظایف را روی رایانه مانند یک انسان انجام دهند.
لایتمن در گفتوگو با TechCrunch گفت: «ما سعی داشتیم مدلها را در استدلال ریاضی بهتر کنیم، چون در آن زمان واقعاً در این زمینه خوب نبودند» و به کارهای اولیه تیم MathGen اشاره کرد.
مدلهای OpenAI هنوز هم بینقص نیستند — سیستمهای هوش مصنوعی جدید این شرکت همچنان دچار خطا و توهم (hallucination) میشوند و عوامل آن در انجام وظایف پیچیده مشکل دارند.
با این حال، مدلهای پیشرفته این شرکت در زمینه استدلال ریاضی پیشرفت چشمگیری داشتهاند. یکی از مدلهای OpenAI اخیراً موفق به کسب مدال طلا در المپیاد بینالمللی ریاضی شده است؛ مسابقهای که ویژه درخشانترین دانشآموزان دبیرستانی در جهان است. OpenAI معتقد است این قابلیتهای استدلالی به سایر حوزهها نیز گسترش خواهد یافت و در نهایت زیربنای عاملهای هوش مصنوعی چندمنظورهای خواهد شد که این شرکت همیشه رؤیای ساخت آنها را در سر داشته است.
ChatGPT در واقع یک اتفاق خوشایند و غیرمنتظره بود — پیشنمایشی پژوهشی که ناگهان به یک محصول مصرفی پُرطرفدار تبدیل شد — اما عاملهای هوش مصنوعی OpenAI حاصل تلاشی چندساله و هدفمند در درون شرکت هستند.
مدیرعامل OpenAI، «سم آلتمن»، در نخستین کنفرانس توسعهدهندگان این شرکت در سال ۲۰۲۳ گفت: «در آینده، تنها کافی است به رایانه بگویید چه میخواهید و آن تمام این کارها را برایتان انجام خواهد داد. در حوزه هوش مصنوعی، اغلب به این قابلیتها با عنوان agent یا عامل اشاره میشود. مزایای این موضوع فوقالعاده خواهد بود.»
اینکه آیا عوامل هوش مصنوعی (agents) به چشمانداز «آلتمن» خواهند رسید یا نه هنوز مشخص نیست، اما OpenAI با انتشار نخستین مدل استدلالی خود، موسوم به o1 در پاییز ۲۰۲۴، جهان را شگفتزده کرد. کمتر از یک سال بعد، ۲۱ پژوهشگر پایهگذار این دستاورد، به پرمتقاضیترین استعدادهای سیلیکونولی تبدیل شدند.
«مارک زاکربرگ» پنج نفر از پژوهشگران مدل o1 را برای کار در واحد جدید متا که بر روی ابرهوش (Superintelligence) تمرکز دارد، جذب کرد و به برخی از آنها بستههای جبرانی بیش از ۱۰۰ میلیون دلار پیشنهاد داد. یکی از این افراد، «شنجیا ژائو»، اخیراً به عنوان مدیر ارشد علمی آزمایشگاه ابرهوش متا (Meta Superintelligence Labs) منصوب شده است.
رنسانس یادگیری تقویتی (Reinforcement Learning)
ظهور مدلهای استدلالی و عاملهای OpenAI با یک تکنیک آموزش در یادگیری ماشین به نام یادگیری تقویتی (RL) گره خورده است. در RL، مدل هوش مصنوعی بازخوردهایی دریافت میکند مبنی بر اینکه آیا انتخابهایش در محیطهای شبیهسازیشده درست بودهاند یا نه.
یادگیری تقویتی چندین دهه است که مورد استفاده قرار میگیرد. برای نمونه، در سال ۲۰۱۶، حدود یک سال پس از تأسیس OpenAI در ۲۰۱۵، یک سیستم هوش مصنوعی که توسط DeepMind گوگل با استفاده از RL ساخته شده بود، با پیروزی بر قهرمان جهانی بازی تختهای Go، توجه جهانیان را به خود جلب کرد.
در آن زمان، یکی از اولین کارکنان OpenAI، آندری کارپاتی، شروع به اندیشیدن در مورد این کرد که چگونه میتوان از یادگیری تقویتی (RL) برای ساخت یک عامل هوش مصنوعی استفاده کرد که بتواند با یک کامپیوتر کار کند. اما سالها طول کشید تا OpenAI مدلها و تکنیکهای آموزشی لازم را توسعه دهد.
تا سال ۲۰۱۸، OpenAI نخستین مدل زبانی بزرگ خود را در سری GPT معرفی کرد؛ مدلی که با حجم عظیمی از دادههای اینترنتی و خوشههای بزرگ GPU پیشپیشآموزش دیده بود. مدلهای GPT در پردازش متن عملکرد فوقالعادهای داشتند و سرانجام به ChatGPT منجر شدند، اما در انجام محاسبات پایهای ریاضی مشکل داشتند.
تا سال ۲۰۲۳ طول کشید تا OpenAI به یک دستاورد مهم رسید؛ دستاوردی که ابتدا «Q*» و سپس «Strawberry» نام گرفت و با ترکیب مدلهای زبانی بزرگ (LLM)، RL، و تکنیکی به نام «محاسبه در زمان تست» حاصل شد. این تکنیک به مدلها زمان و توان محاسباتی بیشتری برای برنامهریزی و حل مسائل، همراه با بررسی و تأیید مراحل کار، قبل از ارائه پاسخ میداد.
این پیشرفت به OpenAI اجازه داد تا رویکردی جدید به نام «زنجیره تفکر» (CoT) را معرفی کند، که عملکرد مدلهای هوش مصنوعی در حل سوالات ریاضی نادیده را بهبود بخشید.
«میتوانستم ببینم مدل دارد شروع به استدلال میکند،» ال کشکی گفت. «اشتباهات را میدید و عقبگرد میکرد، حتی میشد حس کرد که کلافه میشود. واقعاً مثل این بود که داشتم افکار یک انسان را میخواندم.»
اگرچه این تکنیکها به تنهایی چیز جدیدی نبودند، اما OpenAI آنها را به شکل منحصربهفردی ترکیب کرد تا Strawberry را بسازد؛ مدلی که مستقیماً به توسعه o1 منجر شد. OpenAI بهسرعت متوجه شد که توانایی برنامهریزی و بررسی واقعیت در مدلهای استدلالی هوش مصنوعی میتواند برای ساخت عاملهای هوش مصنوعی بسیار مفید باشد.
«ما مشکلی را حل کرده بودیم که چند سال با آن کلنجار میرفتم،» لایتمن گفت. «این یکی از هیجانانگیزترین لحظات دوران تحقیقاتی من بود.»
گسترش استدلال
با مدلهای استدلالی هوش مصنوعی، OpenAI دریافت که دو محور جدید برای بهبود این مدلها در اختیار دارد: استفاده از توان محاسباتی بیشتر در مرحله پسآموزش، و دادن زمان و توان پردازشی بیشتر به مدلها هنگام پاسخدهی به سوالات.
«OpenAI بهعنوان یک شرکت، فقط به وضعیت فعلی فکر نمیکند، بلکه عمیقاً به این فکر میکند که مقیاسپذیری در آینده چگونه خواهد بود،» لایتمن گفت.
کمی پس از دستاورد بزرگ Strawberry در سال ۲۰۲۳، OpenAI تیمی با نام «Agents» به رهبری محقق OpenAI، دنیل سلسم، راهاندازی کرد تا در این الگوی جدید پیشرفت بیشتری حاصل شود. اگرچه این تیم «Agents» نام داشت، اما OpenAI در ابتدا بین مدلهای استدلالی و عاملها (Agents) به معنای امروزی آنها تمایزی قائل نمیشد. هدف شرکت صرفاً ساخت سیستمهای هوش مصنوعی بود که بتوانند وظایف پیچیده را بهخوبی انجام دهند.
در نهایت، کار تیم Agents به رهبری سلسم بخشی از پروژهای بزرگتر برای توسعه مدل استدلالی o1 شد؛ پروژهای که رهبری آن بر عهدهی چهرههایی همچون ایلیا ساتسکِوِر (همبنیانگذار OpenAI)، مارک چن (مدیر ارشد تحقیقات)، و یاکوب پاخوکی (دانشمند ارشد) بود.
OpenAI مجبور بود منابع ارزشمندی — عمدتاً استعداد انسانی و GPU — را برای ساخت o1 اختصاص دهد. در طول تاریخ OpenAI، پژوهشگران همواره باید برای بهدست آوردن منابع با رهبران شرکت مذاکره میکردند؛ نشان دادن یک دستاورد چشمگیر، روشی تضمینی برای دریافت این منابع بود.
«یکی از اصول بنیادین در OpenAI این است که همه چیز در تحقیق از پایین به بالا پیش میرود،» لایتمن گفت. «وقتی شواهدی برای o1 ارائه کردیم، شرکت گفت: “این منطقیه، بریم جلو.”»
برخی از کارکنان سابق میگویند که مأموریت OpenAI برای توسعه هوش عمومی مصنوعی (AGI)، عامل کلیدی در دستیابی به دستاوردهای مربوط به مدلهای استدلالی هوش مصنوعی بود. با تمرکز بر ساخت هوشمندترین مدلهای ممکن، به جای محصولات، OpenAI توانست پروژه o1 را نسبت به سایر تلاشها در اولویت قرار دهد. این نوع سرمایهگذاری بزرگ روی ایدهها، همیشه در آزمایشگاههای رقیب ممکن نبود.
تصمیم برای امتحان روشهای جدید آموزشی، پیشبینی هوشمندانهای از آب درآمد. تا اواخر سال ۲۰۲۴، چندین آزمایشگاه پیشرو هوش مصنوعی شروع به مشاهده بازده نزولی از مدلهایی کردند که صرفاً با بزرگسازی پیشپیشآموزش ساخته میشدند. امروزه، بخش عمدهای از پیشرفتهای حوزه هوش مصنوعی از طریق مدلهای استدلالی حاصل میشود.
عاملهای هوش مصنوعی موجود در بازار امروز، بهترین عملکرد را در حوزههای کاملاً مشخص و قابلتأیید دارند، مانند برنامهنویسی. عامل Codex از OpenAI با هدف کمک به مهندسان نرمافزار برای انجام سریعتر و سادهتر وظایف برنامهنویسی طراحی شده است. در همین حال، مدلهای شرکت Anthropic بهویژه در ابزارهای برنامهنویسی هوش مصنوعی مانند Cursor و Claude Code محبوبیت زیادی پیدا کردهاند — اینها از نخستین عاملهای هوش مصنوعی هستند که مردم حاضرند برای استفاده از آنها هزینه کنند.
با این وجود، عاملهای هوش مصنوعی چندمنظوره مانند ChatGPT Agent از OpenAI و Comet از Perplexity در انجام بسیاری از وظایف پیچیده و ذهنی که مردم میخواهند خودکار شود، هنوز با مشکل مواجهاند. وقتی سعی میکنم از این ابزارها برای خرید آنلاین یا پیدا کردن جای پارک طولانیمدت استفاده کنم، متوجه میشوم که این عاملها زمان بیشتری از آنچه انتظار دارم میبرند و اشتباهات سادهای انجام میدهند.
البته عاملها سیستمهای ابتدایی هستند که بدون شک در آینده بهبود خواهند یافت. اما پژوهشگران ابتدا باید راهی برای آموزش بهتر مدلهای پایهای پیدا کنند تا بتوانند وظایف ذهنیتر و پیچیدهتر را بهتر انجام دهند.