وقتی OpenAI میخواهد همه کارها را انجام دهد

بهروز فیض
توسط:
0

 مدتی پس از پیوستن «هانتر لایتمن» به شرکت OpenAI به عنوان پژوهشگر در سال ۲۰۲۲، او شاهد راه‌اندازی ChatGPT توسط همکارانش بود؛ یکی از محصولاتی که با سریع‌ترین رشد در تاریخ همراه شد. در همین حال، لایتمن بی‌سروصدا روی تیمی کار می‌کرد که وظیفه داشت مدل‌های OpenAI را برای حل مسائل مسابقات ریاضی دبیرستانی آموزش دهد.


امروزه این تیم، که با نام MathGen شناخته می‌شود، به عنوان یکی از عناصر کلیدی در تلاش OpenAI برای ساخت مدل‌های استدلالی هوش مصنوعی شناخته می‌شود؛ فناوری اصلی پشت عوامل (agents) هوش مصنوعی که می‌توانند وظایف را روی رایانه مانند یک انسان انجام دهند.

لایتمن در گفت‌وگو با TechCrunch گفت: «ما سعی داشتیم مدل‌ها را در استدلال ریاضی بهتر کنیم، چون در آن زمان واقعاً در این زمینه خوب نبودند» و به کارهای اولیه تیم MathGen اشاره کرد.

مدل‌های OpenAI هنوز هم بی‌نقص نیستند — سیستم‌های هوش مصنوعی جدید این شرکت همچنان دچار خطا و توهم (hallucination) می‌شوند و عوامل آن در انجام وظایف پیچیده مشکل دارند.

با این حال، مدل‌های پیشرفته این شرکت در زمینه استدلال ریاضی پیشرفت چشمگیری داشته‌اند. یکی از مدل‌های OpenAI اخیراً موفق به کسب مدال طلا در المپیاد بین‌المللی ریاضی شده است؛ مسابقه‌ای که ویژه درخشان‌ترین دانش‌آموزان دبیرستانی در جهان است. OpenAI معتقد است این قابلیت‌های استدلالی به سایر حوزه‌ها نیز گسترش خواهد یافت و در نهایت زیربنای عامل‌های هوش مصنوعی چندمنظوره‌ای خواهد شد که این شرکت همیشه رؤیای ساخت آن‌ها را در سر داشته است.

ChatGPT در واقع یک اتفاق خوشایند و غیرمنتظره بود — پیش‌نمایشی پژوهشی که ناگهان به یک محصول مصرفی پُرطرفدار تبدیل شد — اما عامل‌های هوش مصنوعی OpenAI حاصل تلاشی چندساله و هدفمند در درون شرکت هستند.

مدیرعامل OpenAI، «سم آلتمن»، در نخستین کنفرانس توسعه‌دهندگان این شرکت در سال ۲۰۲۳ گفت: «در آینده، تنها کافی است به رایانه بگویید چه می‌خواهید و آن تمام این کارها را برایتان انجام خواهد داد. در حوزه هوش مصنوعی، اغلب به این قابلیت‌ها با عنوان agent یا عامل اشاره می‌شود. مزایای این موضوع فوق‌العاده خواهد بود.»


این‌که آیا عوامل هوش مصنوعی (agents) به چشم‌انداز «آلتمن» خواهند رسید یا نه هنوز مشخص نیست، اما OpenAI با انتشار نخستین مدل استدلالی خود، موسوم به o1 در پاییز ۲۰۲۴، جهان را شگفت‌زده کرد. کمتر از یک سال بعد، ۲۱ پژوهشگر پایه‌گذار این دستاورد، به پرمتقاضی‌ترین استعدادهای سیلیکون‌ولی تبدیل شدند.

«مارک زاکربرگ» پنج نفر از پژوهشگران مدل o1 را برای کار در واحد جدید متا که بر روی ابرهوش (Superintelligence) تمرکز دارد، جذب کرد و به برخی از آن‌ها بسته‌های جبرانی بیش از ۱۰۰ میلیون دلار پیشنهاد داد. یکی از این افراد، «شنجیا ژائو»، اخیراً به عنوان مدیر ارشد علمی آزمایشگاه ابرهوش متا (Meta Superintelligence Labs) منصوب شده است.

رنسانس یادگیری تقویتی (Reinforcement Learning)

ظهور مدل‌های استدلالی و عامل‌های OpenAI با یک تکنیک آموزش در یادگیری ماشین به نام یادگیری تقویتی (RL) گره خورده است. در RL، مدل هوش مصنوعی بازخوردهایی دریافت می‌کند مبنی بر اینکه آیا انتخاب‌هایش در محیط‌های شبیه‌سازی‌شده درست بوده‌اند یا نه.


یادگیری تقویتی چندین دهه است که مورد استفاده قرار می‌گیرد. برای نمونه، در سال ۲۰۱۶، حدود یک سال پس از تأسیس OpenAI در ۲۰۱۵، یک سیستم هوش مصنوعی که توسط DeepMind گوگل با استفاده از RL ساخته شده بود، با پیروزی بر قهرمان جهانی بازی تخته‌ای Go، توجه جهانیان را به خود جلب کرد.


در آن زمان، یکی از اولین کارکنان OpenAI، آندری کارپاتی، شروع به اندیشیدن در مورد این کرد که چگونه می‌توان از یادگیری تقویتی (RL) برای ساخت یک عامل هوش مصنوعی استفاده کرد که بتواند با یک کامپیوتر کار کند. اما سال‌ها طول کشید تا OpenAI مدل‌ها و تکنیک‌های آموزشی لازم را توسعه دهد.

تا سال ۲۰۱۸، OpenAI نخستین مدل زبانی بزرگ خود را در سری GPT معرفی کرد؛ مدلی که با حجم عظیمی از داده‌های اینترنتی و خوشه‌های بزرگ GPU پیش‌پیش‌آموزش دیده بود. مدل‌های GPT در پردازش متن عملکرد فوق‌العاده‌ای داشتند و سرانجام به ChatGPT منجر شدند، اما در انجام محاسبات پایه‌ای ریاضی مشکل داشتند.

تا سال ۲۰۲۳ طول کشید تا OpenAI به یک دستاورد مهم رسید؛ دستاوردی که ابتدا «Q*» و سپس «Strawberry» نام گرفت و با ترکیب مدل‌های زبانی بزرگ (LLM)، RL، و تکنیکی به نام «محاسبه در زمان تست» حاصل شد. این تکنیک به مدل‌ها زمان و توان محاسباتی بیشتری برای برنامه‌ریزی و حل مسائل، همراه با بررسی و تأیید مراحل کار، قبل از ارائه پاسخ می‌داد.

این پیشرفت به OpenAI اجازه داد تا رویکردی جدید به نام «زنجیره تفکر» (CoT) را معرفی کند، که عملکرد مدل‌های هوش مصنوعی در حل سوالات ریاضی نادیده را بهبود بخشید.

«می‌توانستم ببینم مدل دارد شروع به استدلال می‌کند،» ال کشکی گفت. «اشتباهات را می‌دید و عقب‌گرد می‌کرد، حتی می‌شد حس کرد که کلافه می‌شود. واقعاً مثل این بود که داشتم افکار یک انسان را می‌خواندم.»

اگرچه این تکنیک‌ها به تنهایی چیز جدیدی نبودند، اما OpenAI آن‌ها را به شکل منحصربه‌فردی ترکیب کرد تا Strawberry را بسازد؛ مدلی که مستقیماً به توسعه o1 منجر شد. OpenAI به‌سرعت متوجه شد که توانایی برنامه‌ریزی و بررسی واقعیت در مدل‌های استدلالی هوش مصنوعی می‌تواند برای ساخت عامل‌های هوش مصنوعی بسیار مفید باشد.

«ما مشکلی را حل کرده بودیم که چند سال با آن کلنجار می‌رفتم،» لایتمن گفت. «این یکی از هیجان‌انگیزترین لحظات دوران تحقیقاتی من بود.»

گسترش استدلال

با مدل‌های استدلالی هوش مصنوعی، OpenAI دریافت که دو محور جدید برای بهبود این مدل‌ها در اختیار دارد: استفاده از توان محاسباتی بیشتر در مرحله پس‌آموزش، و دادن زمان و توان پردازشی بیشتر به مدل‌ها هنگام پاسخ‌دهی به سوالات.

«OpenAI به‌عنوان یک شرکت، فقط به وضعیت فعلی فکر نمی‌کند، بلکه عمیقاً به این فکر می‌کند که مقیاس‌پذیری در آینده چگونه خواهد بود،» لایتمن گفت.


کمی پس از دستاورد بزرگ Strawberry در سال ۲۰۲۳، OpenAI تیمی با نام «Agents» به رهبری محقق OpenAI، دنیل سلسم، راه‌اندازی کرد تا در این الگوی جدید پیشرفت بیشتری حاصل شود. اگرچه این تیم «Agents» نام داشت، اما OpenAI در ابتدا بین مدل‌های استدلالی و عامل‌ها (Agents) به معنای امروزی آن‌ها تمایزی قائل نمی‌شد. هدف شرکت صرفاً ساخت سیستم‌های هوش مصنوعی بود که بتوانند وظایف پیچیده را به‌خوبی انجام دهند.

در نهایت، کار تیم Agents به رهبری سلسم بخشی از پروژه‌ای بزرگ‌تر برای توسعه مدل استدلالی o1 شد؛ پروژه‌ای که رهبری آن بر عهده‌ی چهره‌هایی همچون ایلیا ساتسکِوِر (هم‌بنیان‌گذار OpenAI)، مارک چن (مدیر ارشد تحقیقات)، و یاکوب پاخوکی (دانشمند ارشد) بود.


OpenAI مجبور بود منابع ارزشمندی — عمدتاً استعداد انسانی و GPU — را برای ساخت o1 اختصاص دهد. در طول تاریخ OpenAI، پژوهشگران همواره باید برای به‌دست آوردن منابع با رهبران شرکت مذاکره می‌کردند؛ نشان دادن یک دستاورد چشمگیر، روشی تضمینی برای دریافت این منابع بود.

«یکی از اصول بنیادین در OpenAI این است که همه چیز در تحقیق از پایین به بالا پیش می‌رود،» لایتمن گفت. «وقتی شواهدی برای o1 ارائه کردیم، شرکت گفت: “این منطقیه، بریم جلو.”»

برخی از کارکنان سابق می‌گویند که مأموریت OpenAI برای توسعه هوش عمومی مصنوعی (AGI)، عامل کلیدی در دستیابی به دستاوردهای مربوط به مدل‌های استدلالی هوش مصنوعی بود. با تمرکز بر ساخت هوشمندترین مدل‌های ممکن، به جای محصولات، OpenAI توانست پروژه o1 را نسبت به سایر تلاش‌ها در اولویت قرار دهد. این نوع سرمایه‌گذاری بزرگ روی ایده‌ها، همیشه در آزمایشگاه‌های رقیب ممکن نبود.

تصمیم برای امتحان روش‌های جدید آموزشی، پیش‌بینی هوشمندانه‌ای از آب درآمد. تا اواخر سال ۲۰۲۴، چندین آزمایشگاه پیشرو هوش مصنوعی شروع به مشاهده بازده نزولی از مدل‌هایی کردند که صرفاً با بزرگ‌سازی پیش‌پیش‌آموزش ساخته می‌شدند. امروزه، بخش عمده‌ای از پیشرفت‌های حوزه هوش مصنوعی از طریق مدل‌های استدلالی حاصل می‌شود.

عامل‌های هوش مصنوعی موجود در بازار امروز، بهترین عملکرد را در حوزه‌های کاملاً مشخص و قابل‌تأیید دارند، مانند برنامه‌نویسی. عامل Codex از OpenAI با هدف کمک به مهندسان نرم‌افزار برای انجام سریع‌تر و ساده‌تر وظایف برنامه‌نویسی طراحی شده است. در همین حال، مدل‌های شرکت Anthropic به‌ویژه در ابزارهای برنامه‌نویسی هوش مصنوعی مانند Cursor و Claude Code محبوبیت زیادی پیدا کرده‌اند — این‌ها از نخستین عامل‌های هوش مصنوعی هستند که مردم حاضرند برای استفاده از آن‌ها هزینه کنند.

با این وجود، عامل‌های هوش مصنوعی چندمنظوره مانند ChatGPT Agent از OpenAI و Comet از Perplexity در انجام بسیاری از وظایف پیچیده و ذهنی که مردم می‌خواهند خودکار شود، هنوز با مشکل مواجه‌اند. وقتی سعی می‌کنم از این ابزارها برای خرید آنلاین یا پیدا کردن جای پارک طولانی‌مدت استفاده کنم، متوجه می‌شوم که این عامل‌ها زمان بیشتری از آنچه انتظار دارم می‌برند و اشتباهات ساده‌ای انجام می‌دهند.

البته عامل‌ها سیستم‌های ابتدایی هستند که بدون شک در آینده بهبود خواهند یافت. اما پژوهشگران ابتدا باید راهی برای آموزش بهتر مدل‌های پایه‌ای پیدا کنند تا بتوانند وظایف ذهنی‌تر و پیچیده‌تر را بهتر انجام دهند.

ارسال یک نظر

0نظرات

ارسال یک نظر (0)