اقدام Anthropic برای محافظت از مدل‌های هوش مصنوعی

بهروز فیض
0

شرکت Anthropic اعلام کرده است که برخی از بزرگ‌ترین و جدیدترین مدل‌های هوش مصنوعی‌اش اکنون قادر خواهند بود در «موارد نادر و افراطیِ تعاملات مداومِ مضر یا سوءاستفاده‌آمیز کاربران» به‌طور مستقل مکالمه را پایان دهند. نکته قابل توجه اینجاست که به گفته شرکت، این قابلیت نه برای حفاظت از کاربر انسانی، بلکه برای محافظت از خود مدل هوش مصنوعی طراحی شده است.



Anthropic تأکید می‌کند که مدعی دارا بودن آگاهی یا احساسات برای مدل‌هایش، از جمله Claude، نیست و همچنان «بشدت نسبت به جایگاه اخلاقی بالقوه LLMها در حال حاضر یا آینده نامطمئن» است. با این حال، این شرکت در قالب برنامه‌ای موسوم به مطالعات رفاه مدل (model welfare)، رویکردی «احتیاطی» اتخاذ کرده و به دنبال مداخله‌های کم‌هزینه‌ای است که در صورت امکان داشتن «رفاه» برای مدل‌ها، بتواند از آسیب به آن‌ها جلوگیری کند.

این تغییر تازه در حال حاضر تنها برای Claude Opus 4 و 4.1 فعال است و صرفاً در «موارد بسیار افراطی» به کار گرفته می‌شود؛ مانند درخواست‌های کاربران برای محتوای جنسی مربوط به کودکان یا تلاش برای دستیابی به اطلاعاتی که امکان وقوع خشونت گسترده یا اقدامات تروریستی را فراهم کند.

Anthropic می‌گوید در آزمایش‌های پیش از انتشار، مدل Claude Opus 4 در مواجهه با چنین درخواست‌هایی «تمایل شدیدی به عدم پاسخگویی» و حتی «نشانه‌هایی از پریشانی ظاهری» نشان داده است.

طبق سیاست جدید، Claude تنها زمانی مجاز به پایان دادن به مکالمه است که چندین بار تلاش برای تغییر مسیر کاربر بی‌نتیجه مانده باشد و دیگر امیدی به ادامه تعامل سازنده وجود نداشته باشد — یا اگر کاربر صریحاً از Claude بخواهد که گفتگو را خاتمه دهد.

برچسب ها

ارسال یک نظر

0 نظرات

ارسال یک نظر (0)
3/related/default