گوگل دیپمایند از Genie 3 رونمایی کرده است، جدیدترین مدل بنیادین دنیامحور (world model) که میتواند برای آموزش عاملهای هوش مصنوعی با کاربرد عمومی مورد استفاده قرار گیرد. این قابلیت، به گفتهی آزمایشگاه هوش مصنوعی دیپمایند، گامی اساسی در مسیر دستیابی به هوش عمومی مصنوعی یا همان هوشی در سطح انسان محسوب میشود.
شلومی فروختر، مدیر پژوهش در دیپمایند، در یک نشست خبری گفت:
«Genie 3 نخستین مدل دنیامحور تعاملی و بلادرنگ با کاربرد عمومی است. این مدل فراتر از مدلهای محدود قبلی عمل میکند. به محیط خاصی وابسته نیست. میتواند دنیاهایی واقعگرایانه (فتورئالیستیک)، خیالی یا ترکیبی از این دو را تولید کند.»
Genie 3 که هنوز در مرحلهی پیشنمایش پژوهشی قرار دارد و بهصورت عمومی عرضه نشده، بر پایهی مدلهای پیشین Genie 2 (که قادر به ساخت محیطهای جدید برای عاملها بود) و مدل جدید تولید ویدیو Veo 3 دیپمایند ساخته شده است؛ مدلی که گفته میشود درک عمیقی از فیزیک دارد.
با یک دستور متنی ساده، Genie 3 میتواند چندین دقیقه محیط سهبعدی تعاملی با وضوح ۷۲۰p و نرخ ۲۴ فریم بر ثانیه تولید کند — جهشی قابل توجه نسبت به ۱۰ تا ۲۰ ثانیهای که Genie 2 قادر به تولید آن بود.
این مدل همچنین از قابلیتی به نام «رویدادهای دنیامحور قابل هدایت با دستور (promptable world events)» برخوردار است؛ به این معنا که میتوان با یک دستور، تغییراتی در دنیای تولیدشده ایجاد کرد.
شاید مهمترین نکته این باشد که شبیهسازیهای Genie 3 از لحاظ فیزیکی در طول زمان سازگار باقی میمانند، زیرا این مدل قادر است آنچه را پیشتر تولید کرده به خاطر بسپارد — قابلیتی که به گفتهی دیپمایند، پژوهشگران آن را بهصورت صریح در مدل برنامهریزی نکردهاند.
شلومی فروختر اشاره کرد که اگرچه Genie 3 کاربردهایی در حوزههایی مانند آموزش، بازیسازی و نمونهسازی مفاهیم خلاقانه دارد، اما بزرگترین ارزش آن در آموزش عاملهای هوش مصنوعی برای انجام وظایف عمومی نهفته است — که او آن را گامی ضروری در مسیر رسیدن به هوش عمومی مصنوعی (AGI) میداند.
جک پارکر-هولدر، پژوهشگر تیم «بیپایانی» دیپمایند، نیز در این نشست گفت:
«ما فکر میکنیم مدلهای دنیامحور (world models) کلیدی برای رسیدن به AGI هستند، بهویژه برای عاملهای مجسم (embodied agents)، جایی که شبیهسازی سناریوهای دنیای واقعی بهشدت چالشبرانگیز است.»

