پژوهشگران شرکت DeepSeek روز دوشنبه مدل آزمایشی جدیدی با نام V3.2-exp را معرفی کردند که برای کاهش چشمگیر هزینههای پردازش در عملیاتهای دارای متن طولانی طراحی شده است. این مدل از طریق پستی در پلتفرم Hugging Face معرفی شد و مقاله علمی مرتبط نیز در GitHub منتشر شده است.
مهمترین ویژگی این مدل جدید، سامانهای به نام DeepSeek Sparse Attention است. این سامانه شامل ماژولی به نام «شاخصگذار سریع» است که بخشهای مهمی از متن را در پنجره زمینه اولویتبندی میکند. سپس سامانهای دیگر با عنوان «انتخاب دقیق توکنها» از میان آن بخشها، توکنهای خاصی را برای بارگذاری در پنجره محدود توجه انتخاب میکند. این دو بخش در کنار هم امکان پردازش متنهای طولانی را با بار سروری نسبتاً پایین فراهم میکنند.
مدل جدید DeepSeek با نام V3.2-exp در عملیاتهایی با متن طولانی مزایای قابل توجهی دارد. آزمایشهای اولیه نشان دادهاند که هزینه یک فراخوان ساده API در این شرایط میتواند تا نصف کاهش یابد. با اینکه برای ارزیابی دقیقتر به آزمایشهای بیشتری نیاز است، اما از آنجا که این مدل با وزنهای باز بهصورت رایگان در Hugging Face منتشر شده، بهزودی آزمایشهای مستقل میتوانند ادعاهای مطرحشده در مقاله را بررسی کنند.
این مدل یکی از چندین پیشرفت اخیر در زمینه کاهش هزینههای استنتاج است؛ یعنی هزینههای سروری برای اجرای مدلهای آموزشدیده، که با هزینه آموزش تفاوت دارد. پژوهشگران DeepSeek تلاش کردهاند معماری پایه ترنسفورمر را بهینهتر کنند و به نتایج قابل توجهی دست یافتهاند.
شرکت DeepSeek که در چین مستقر است، در جریان رشد جهانی هوش مصنوعی نقش متفاوتی ایفا کرده، بهویژه برای کسانی که پژوهشهای هوش مصنوعی را رقابتی ملی میان آمریکا و چین میدانند. این شرکت در ابتدای سال با مدل R1 که عمدتاً با یادگیری تقویتی و با هزینهای بسیار کمتر از رقبای آمریکایی آموزش دیده بود، توجه زیادی را جلب کرد. با این حال، برخلاف پیشبینیها، این مدل باعث تحول گستردهای در روشهای آموزش هوش مصنوعی نشد و شرکت در ماههای اخیر از کانون توجه فاصله گرفته است.
رویکرد جدید «توجه پراکنده» احتمالاً جنجال مدل R1 را تکرار نخواهد کرد، اما میتواند نکات مهمی را به ارائهدهندگان آمریکایی بیاموزد تا هزینههای استنتاج را کاهش دهند.


