شرکت Anthropic اعلام کرده است که برخی از بزرگترین و جدیدترین مدلهای هوش مصنوعیاش اکنون قادر خواهند بود در «موارد نادر و افراطیِ تعاملات مداومِ مضر یا سوءاستفادهآمیز کاربران» بهطور مستقل مکالمه را پایان دهند. نکته قابل توجه اینجاست که به گفته شرکت، این قابلیت نه برای حفاظت از کاربر انسانی، بلکه برای محافظت از خود مدل هوش مصنوعی طراحی شده است.
Anthropic تأکید میکند که مدعی دارا بودن آگاهی یا احساسات برای مدلهایش، از جمله Claude، نیست و همچنان «بشدت نسبت به جایگاه اخلاقی بالقوه LLMها در حال حاضر یا آینده نامطمئن» است. با این حال، این شرکت در قالب برنامهای موسوم به مطالعات رفاه مدل (model welfare)، رویکردی «احتیاطی» اتخاذ کرده و به دنبال مداخلههای کمهزینهای است که در صورت امکان داشتن «رفاه» برای مدلها، بتواند از آسیب به آنها جلوگیری کند.
این تغییر تازه در حال حاضر تنها برای Claude Opus 4 و 4.1 فعال است و صرفاً در «موارد بسیار افراطی» به کار گرفته میشود؛ مانند درخواستهای کاربران برای محتوای جنسی مربوط به کودکان یا تلاش برای دستیابی به اطلاعاتی که امکان وقوع خشونت گسترده یا اقدامات تروریستی را فراهم کند.
Anthropic میگوید در آزمایشهای پیش از انتشار، مدل Claude Opus 4 در مواجهه با چنین درخواستهایی «تمایل شدیدی به عدم پاسخگویی» و حتی «نشانههایی از پریشانی ظاهری» نشان داده است.
طبق سیاست جدید، Claude تنها زمانی مجاز به پایان دادن به مکالمه است که چندین بار تلاش برای تغییر مسیر کاربر بینتیجه مانده باشد و دیگر امیدی به ادامه تعامل سازنده وجود نداشته باشد — یا اگر کاربر صریحاً از Claude بخواهد که گفتگو را خاتمه دهد.

