همه چیز درباره DeepSeek

بهروز فیض
توسط:
0

 آزمایشگاه هوش مصنوعی چینی DeepSeek این هفته پس از صعود اپلیکیشن چتباتش به رأس جدول فروش اپ استور اپل، به جریان اصلی توجهات وارد شد. مدلهای هوش مصنوعی DeepSeek که با استفاده از تکنیکهای محاسباتی کارآمد آموزش دیده اند، تحلیلگران وال استریت و فناوران را به این سوال واداشته اند که آیا ایالات متحده میتواند برتری خود در رقابت هوش مصنوعی را حفظ کند و آیا تقاضا برای تراشه های هوش مصنوعی پایدار خواهد ماند.



اما DeepSeek از کجا آمده است و چگونه به این سرعت به شهرت بین المللی دست یافته است؟


DeepSeek توسط High-Flyer Capital Management، یک صندوق پوشش ریسک کمی چینی که از هوش مصنوعی برای تصمیمات معاملاتی خود استفاده میکند، حمایت میشود.


لیانگ ونفنگ، علاقه مند به هوش مصنوعی، در سال ۲۰۱۵ شرکت High-Flyer را تأسیس کرد. ونفنگ که گزارش شده است در دوران دانشجویی خود در دانشگاه ژجیانگ به معامله گری علاقه پیدا کرد، در سال ۲۰۱۹ High-Flyer Capital Management را به عنوان یک صندوق پوشش ریسک راه اندازی کرد که بر توسعه و استقرار الگوریتم های هوش مصنوعی متمرکز بود.


در سال ۲۰۲۳، High-Flyer، DeepSeek را به عنوان یک آزمایشگاه اختصاصی برای تحقیق در مورد ابزارهای هوش مصنوعی، جدا از کسب وکار مالی خود، تأسیس کرد. با حمایت High-Flyer به عنوان یکی از سرمایه گذاران، این آزمایشگاه به یک شرکت مستقل با نام DeepSeek تبدیل شد.


از همان ابتدا، DeepSeek خوشه های مرکز داده خود را برای آموزش مدلها ساخت. اما مانند سایر شرکتهای هوش مصنوعی در چین، DeepSeek تحت تأثیر ممنوعیتهای صادرات سخت افزار از سوی ایالات متحده قرار گرفته است. برای آموزش یکی از مدلهای اخیر خود، این شرکت مجبور شد از تراشه های Nvidia H800 استفاده کند، که نسخهای ضعیفتر از تراشه H100 است و در دسترس شرکتهای آمریکایی قرار دارد.


گفته میشود که تیم فنی DeepSeek بیشتر جوان است. این شرکت به طور فعال محققان دکترای هوش مصنوعی از دانشگاههای برتر چین را استخدام میکند. همچنین طبق گزارش نیویورک تایمز، DeepSeek افرادی بدون پیشینه علوم کامپیوتر را نیز استخدام میکند تا به فناوری خود کمک کند طیف وسیعتری از موضوعات را بهتر درک کند.


DeepSeek در نوامبر ۲۰۲۳ اولین مجموعه مدلهای خود را معرفی کرد: DeepSeek Coder، DeepSeek LLM و DeepSeek Chat. اما تا بهار گذشته، زمانی که این استارتآپ نسل بعدی مدلهای خود با نام DeepSeek-V2 را منتشر کرد، صنعت هوش مصنوعی شروع به توجه به آن کرد.


DeepSeek-V2، یک سیستم عمومی برای تحلیل متن و تصویر، در معیارهای مختلف هوش مصنوعی عملکرد خوبی داشت و هزینه اجرای آن بسیار کمتر از مدلهای مشابه در آن زمان بود. این موضوع رقبای داخلی DeepSeek، از جمله ByteDance و Alibaba، را مجبور کرد تا قیمت استفاده از برخی مدلهای خود را کاهش دهند و برخی دیگر را کاملاً رایگان کنند.


DeepSeek-V3 که در دسامبر ۲۰۲۴ راه اندازی شد، تنها بر شهرت DeepSeek افزود.


بر اساس تستهای معیار داخلی DeepSeek، مدل DeepSeek-V3 هم از مدلهای قابل دانلود و آزاد مانند Llama شرکت متا و هم از مدلهای «بسته» که فقط از طریق API قابل دسترسی هستند، مانند GPT-4o شرکت OpenAI، عملکرد بهتری دارد.


همچنین مدل R1 DeepSeek که یک مدل «استدلالی» است، به همان اندازه چشمگیر است. این مدل که در ژانویه منتشر شد، طبق ادعای DeepSeek، در معیارهای کلیدی به خوبی مدل o1 شرکت OpenAI عمل میکند.


به عنوان یک مدل استدلالی، R1 به طور مؤثر اطلاعات خود را بررسی میکند، که به آن کمک میکند از برخی مشکلاتی که معمولاً مدلها را دچار اشتباه میکنند، اجتناب کند. مدلهای استدلالی در مقایسه با مدلهای غیراستدلالی معمولی، زمان بیشتری (معمولاً چند ثانیه تا چند دقیقه) برای رسیدن به راه حل نیاز دارند. مزیت این مدلها این است که در حوزه هایی مانند فیزیک، علوم و ریاضیات قابل اعتمادتر هستند.


با این حال، مدلهای R1، DeepSeek-V3 و سایر مدلهای DeepSeek یک نقطه ضعف دارند. از آنجا که این مدلها توسط چین توسعه یافته اند، تحت نظارت تنظیم کننده اینترنت چین قرار میگیرند تا اطمینان حاصل شود که پاسخهای آنها «ارزشهای اصلی سوسیالیستی» را منعکس میکنند. به عنوان مثال، در اپلیکیشن چتبات DeepSeek، مدل R1 به سوالاتی درباره میدان تیانآنمن یا خودمختاری تایوان پاسخ نمیدهد.


اگر DeepSeek یک مدل کسبوکار داشته باشد، دقیقاً مشخص نیست که این مدل چیست. این شرکت محصولات و خدمات خود را بسیار پایینتر از ارزش بازار قیمت گذاری میکند و برخی را به طور رایگان ارائه میدهد.


به گفته DeepSeek، پیشرفتهای کارایی به آن امکان داده است تا رقابت پذیری هزینه های خود را در سطح بسیار بالایی حفظ کند. با این حال، برخی از کارشناسان ارقام ارائه شده توسط شرکت را زیر سوال برده اند.


در هر صورت، توسعه دهندگان به مدلهای DeepSeek روی آورده اند. این مدلها به معنای رایج کلمه متن باز (open source) نیستند، اما تحت مجوزهای آزاد (permissive licenses) ارائه میشوند که اجازه استفاده تجاری را میدهند. به گفته کلم دِلانگ، مدیرعامل Hugging Face (یکی از پلتفرمهایی که مدلهای DeepSeek را میزبانی میکند)، توسعه دهندگان در Hugging Face بیش از ۵۰۰ مدل «مشتق شده» از R1 ایجاد کرده اند که در مجموع ۲.۵ میلیون بار دانلود شده اند.


موفقیت DeepSeek در برابر رقبای بزرگتر و باسابقه تر به عنوان «دگرگون کننده هوش مصنوعی» و آغازگر «دورهای جدید از رقابت در هوش مصنوعی» توصیف شده است. موفقیت این شرکت حداقل تا حدی مسئول کاهش ۱۸ درصدی قیمت سهام Nvidia در روز دوشنبه و همچنین واکنش عمومی سام آلتمن، مدیرعامل OpenAI، بود.


در مورد آینده DeepSeek، چیزهای زیادی مشخص نیست. بهبود مدلها قطعی است. اما به نظر میرسد دولت ایالات متحده نسبت به آنچه تأثیرات مضر خارجی میپندارد، هشیارتر شده است.

برچسب :

ارسال یک نظر

0نظرات

ارسال یک نظر (0)