نسخه جدید DeepSeek به شدت هزینه پردازش کمی دارد

بهروز فیض
0

 پژوهشگران شرکت DeepSeek روز دوشنبه مدل آزمایشی جدیدی با نام V3.2-exp را معرفی کردند که برای کاهش چشمگیر هزینه‌های پردازش در عملیات‌های دارای متن طولانی طراحی شده است. این مدل از طریق پستی در پلتفرم Hugging Face معرفی شد و مقاله علمی مرتبط نیز در GitHub منتشر شده است.



مهم‌ترین ویژگی این مدل جدید، سامانه‌ای به نام DeepSeek Sparse Attention است. این سامانه شامل ماژولی به نام «شاخص‌گذار سریع» است که بخش‌های مهمی از متن را در پنجره زمینه اولویت‌بندی می‌کند. سپس سامانه‌ای دیگر با عنوان «انتخاب دقیق توکن‌ها» از میان آن بخش‌ها، توکن‌های خاصی را برای بارگذاری در پنجره محدود توجه انتخاب می‌کند. این دو بخش در کنار هم امکان پردازش متن‌های طولانی را با بار سروری نسبتاً پایین فراهم می‌کنند.



مدل جدید DeepSeek با نام V3.2-exp در عملیات‌هایی با متن طولانی مزایای قابل توجهی دارد. آزمایش‌های اولیه نشان داده‌اند که هزینه یک فراخوان ساده API در این شرایط می‌تواند تا نصف کاهش یابد. با اینکه برای ارزیابی دقیق‌تر به آزمایش‌های بیشتری نیاز است، اما از آنجا که این مدل با وزن‌های باز به‌صورت رایگان در Hugging Face منتشر شده، به‌زودی آزمایش‌های مستقل می‌توانند ادعاهای مطرح‌شده در مقاله را بررسی کنند.

این مدل یکی از چندین پیشرفت اخیر در زمینه کاهش هزینه‌های استنتاج است؛ یعنی هزینه‌های سروری برای اجرای مدل‌های آموزش‌دیده، که با هزینه آموزش تفاوت دارد. پژوهشگران DeepSeek تلاش کرده‌اند معماری پایه ترنسفورمر را بهینه‌تر کنند و به نتایج قابل توجهی دست یافته‌اند.

شرکت DeepSeek که در چین مستقر است، در جریان رشد جهانی هوش مصنوعی نقش متفاوتی ایفا کرده، به‌ویژه برای کسانی که پژوهش‌های هوش مصنوعی را رقابتی ملی میان آمریکا و چین می‌دانند. این شرکت در ابتدای سال با مدل R1 که عمدتاً با یادگیری تقویتی و با هزینه‌ای بسیار کمتر از رقبای آمریکایی آموزش دیده بود، توجه زیادی را جلب کرد. با این حال، برخلاف پیش‌بینی‌ها، این مدل باعث تحول گسترده‌ای در روش‌های آموزش هوش مصنوعی نشد و شرکت در ماه‌های اخیر از کانون توجه فاصله گرفته است.

رویکرد جدید «توجه پراکنده» احتمالاً جنجال مدل R1 را تکرار نخواهد کرد، اما می‌تواند نکات مهمی را به ارائه‌دهندگان آمریکایی بیاموزد تا هزینه‌های استنتاج را کاهش دهند.


برچسب ها

ارسال یک نظر

0 نظرات

ارسال یک نظر (0)
3/related/default