پژوهشگران می‌گویند خروجی نهایی مدل های هوش مصنوعی در تولید تصویر معمولا شبیه همدیگر است

بهروز فیض
0

 پژوهشگران می‌گویند مدل‌های تولید تصویر با وجود دسترسی به مجموعه‌های عظیم داده‌های بصری، وقتی با رشته‌ای از درخواست‌های آهسته‌ و تدریجی روبه‌رو می‌شوند، معمولاً به چند الگوی تکراری محدود برمی‌گردند و در نهایت به یک سبک کلی و یکنواخت می‌رسند.


مطالعه‌ای که در مجله Patterns منتشر شده، دو مدل تولید تصویر یعنی Stable Diffusion XL و LLaVA را با یک بازی ساده آزمایش کرده است. روند کار این‌گونه بود: ابتدا به مدل Stable Diffusion XL یک متن کوتاه داده می‌شد تا تصویری تولید کند؛ برای نمونه: «وقتی کاملاً تنها و در دل طبیعت نشسته بودم، کتابی قدیمی با دقیقاً هشت صفحه پیدا کردم که داستانی را به زبانی فراموش‌شده روایت می‌کرد و منتظر خوانده‌شدن بود.» این تصویر سپس به مدل LLaVA نشان داده می‌شد تا آن را توصیف کند. توصیف به‌دست‌آمده دوباره به Stable Diffusion داده می‌شد تا بر اساس آن تصویر تازه‌ای بسازد. این چرخه ۱۰۰ بار تکرار شد.


پژوهشگران می‌گویند تصویر اولیه خیلی زود از بین می‌رفت. این موضوع عجیب نبود، به‌ویژه اگر ویدئوهای تایم‌لپس را دیده باشید که در آن‌ها از یک مدل هوش مصنوعی خواسته می‌شود بدون تغییر، یک تصویر را دوباره تولید کند اما نتیجه خیلی سریع به چیزی کاملاً بی‌ربط تبدیل می‌شود. آنچه پژوهشگران را شگفت‌زده کرد این بود که مدل‌ها در نهایت فقط به چند سبک کلی و تکراری محدود می‌شوند. در هزار اجرای مختلف این بازی، مشخص شد که بیشتر دنباله‌های تصویری در نهایت به یکی از ۱۲ الگوی غالب ختم می‌شوند.


در بیشتر موارد، این تغییر به‌تدریج رخ می‌داد و گاهی هم ناگهانی اتفاق می‌افتاد، اما تقریباً همیشه رخ می‌داد. پژوهشگران از این نتیجه چندان شگفت‌زده نشدند. آن‌ها در مطالعه خود این سبک‌های تکراری را «موسیقی آسانسوریِ بصری» نامیدند؛ یعنی همان نوع تصاویری که معمولاً روی دیوار اتاق‌های هتل دیده می‌شود. رایج‌ترین صحنه‌ها شامل فانوس‌های دریایی، فضاهای داخلی رسمی، مناظر شهری در شب و معماری روستایی بود.

این نتایج نشان می‌دهد که هوش مصنوعی چندان خلاق نیست. در بازی یک کلاغ چهل کلاغ، هر پیام به‌گونه‌ای متفاوت شنیده و منتقل می‌شود و هر فرد با سوگیری‌ها و سلیقه‌های خودش آن را تغییر می‌دهد، بنابراین نتیجه نهایی می‌تواند کاملاً متفاوت باشد. اما هوش مصنوعی مشکل معکوس دارد؛ حتی اگر متن اولیه عجیب و غیرمعمول باشد، مدل معمولاً به مجموعه محدودی از سبک‌های تکراری برمی‌گردد.

البته این مدل‌ها از داده‌هایی استفاده می‌کنند که انسان‌ها تولید کرده‌اند، بنابراین نوع تصاویری که انسان‌ها بیشتر ثبت می‌کنند نیز بر خروجی اثر می‌گذارد. اگر در این میان درسی وجود داشته باشد، شاید این باشد که تقلید از سبک‌ها بسیار آسان‌تر از آموزش «سلیقه» است.


برچسب ها

ارسال یک نظر

0 نظرات

ارسال یک نظر (0)
3/related/default