پژوهشگران میگویند مدلهای تولید تصویر با وجود دسترسی به مجموعههای عظیم دادههای بصری، وقتی با رشتهای از درخواستهای آهسته و تدریجی روبهرو میشوند، معمولاً به چند الگوی تکراری محدود برمیگردند و در نهایت به یک سبک کلی و یکنواخت میرسند.
مطالعهای که در مجله Patterns منتشر شده، دو مدل تولید تصویر یعنی Stable Diffusion XL و LLaVA را با یک بازی ساده آزمایش کرده است. روند کار اینگونه بود: ابتدا به مدل Stable Diffusion XL یک متن کوتاه داده میشد تا تصویری تولید کند؛ برای نمونه: «وقتی کاملاً تنها و در دل طبیعت نشسته بودم، کتابی قدیمی با دقیقاً هشت صفحه پیدا کردم که داستانی را به زبانی فراموششده روایت میکرد و منتظر خواندهشدن بود.» این تصویر سپس به مدل LLaVA نشان داده میشد تا آن را توصیف کند. توصیف بهدستآمده دوباره به Stable Diffusion داده میشد تا بر اساس آن تصویر تازهای بسازد. این چرخه ۱۰۰ بار تکرار شد.
پژوهشگران میگویند تصویر اولیه خیلی زود از بین میرفت. این موضوع عجیب نبود، بهویژه اگر ویدئوهای تایملپس را دیده باشید که در آنها از یک مدل هوش مصنوعی خواسته میشود بدون تغییر، یک تصویر را دوباره تولید کند اما نتیجه خیلی سریع به چیزی کاملاً بیربط تبدیل میشود. آنچه پژوهشگران را شگفتزده کرد این بود که مدلها در نهایت فقط به چند سبک کلی و تکراری محدود میشوند. در هزار اجرای مختلف این بازی، مشخص شد که بیشتر دنبالههای تصویری در نهایت به یکی از ۱۲ الگوی غالب ختم میشوند.
در بیشتر موارد، این تغییر بهتدریج رخ میداد و گاهی هم ناگهانی اتفاق میافتاد، اما تقریباً همیشه رخ میداد. پژوهشگران از این نتیجه چندان شگفتزده نشدند. آنها در مطالعه خود این سبکهای تکراری را «موسیقی آسانسوریِ بصری» نامیدند؛ یعنی همان نوع تصاویری که معمولاً روی دیوار اتاقهای هتل دیده میشود. رایجترین صحنهها شامل فانوسهای دریایی، فضاهای داخلی رسمی، مناظر شهری در شب و معماری روستایی بود.
این نتایج نشان میدهد که هوش مصنوعی چندان خلاق نیست. در بازی یک کلاغ چهل کلاغ، هر پیام بهگونهای متفاوت شنیده و منتقل میشود و هر فرد با سوگیریها و سلیقههای خودش آن را تغییر میدهد، بنابراین نتیجه نهایی میتواند کاملاً متفاوت باشد. اما هوش مصنوعی مشکل معکوس دارد؛ حتی اگر متن اولیه عجیب و غیرمعمول باشد، مدل معمولاً به مجموعه محدودی از سبکهای تکراری برمیگردد.
البته این مدلها از دادههایی استفاده میکنند که انسانها تولید کردهاند، بنابراین نوع تصاویری که انسانها بیشتر ثبت میکنند نیز بر خروجی اثر میگذارد. اگر در این میان درسی وجود داشته باشد، شاید این باشد که تقلید از سبکها بسیار آسانتر از آموزش «سلیقه» است.

