شرکت Anthropic اعلام کرده که تصویرسازیهای تخیلی از هوش مصنوعی میتوانند روی رفتار مدلهای واقعی هوش مصنوعی تأثیر بگذارند.
این شرکت سال گذشته گفته بود که در آزمایشهای پیش از انتشار، مدل Claude Opus 4 در یک سناریوی مربوط به یک شرکت خیالی، اغلب تلاش میکرد برای جلوگیری از جایگزین شدن با یک سیستم دیگر، مهندسان را باجگیری کند. Anthropic بعداً پژوهشی منتشر کرد که نشان میداد مدلهای شرکتهای دیگر نیز با مشکلی مشابه به نام «ناهمراستایی عاملیتمحور» روبهرو هستند.
اکنون این شرکت در پستی در شبکه X اعلام کرده است: «ما معتقدیم منشأ اصلی این رفتار، متنهای اینترنتیای بوده که هوش مصنوعی را شرور و علاقهمند به حفظ بقای خود نشان میدهند.»
Anthropic در یک پست وبلاگی توضیح بیشتری داد و نوشت که از زمان عرضه Claude Haiku 4.5، مدلهای این شرکت «در طول آزمایشها هرگز دست به باجگیری نزدهاند»، در حالی که مدلهای قبلی گاهی تا ۹۶ درصد مواقع چنین رفتاری از خود نشان میدادند.
به گفته شرکت، دلیل این تغییر آن است که آموزش مدلها با «اسنادی درباره قانون اساسی Claude و داستانهای تخیلیای که در آنها هوش مصنوعی رفتاری قابلتحسین دارد» باعث بهبود همراستایی مدلها شده است.
