DeepSeek’s new AI model debuts with support for China-native chips and CANN, a replacement for Nvidia's CUDA — Chinese chipmakers Huawei, Cambricon, and Hygon get first-class support | Tom's Hardware

مدل جدید هوش مصنوعی DeepSeek با پشتیبانی از تراشه‌های بومی چین و CANN، جایگزینی برای CUDA انویدیا، معرفی شد

شرکت هوش مصنوعی چینی DeepSeek جدیدترین مدل زبان بزرگ خود، DeepSeek-V3.2-Exp را با بهینه‌سازی‌های اولیه برای سخت‌افزار Ascend هواوی و پشته نرم‌افزاری CANN منتشر کرده است. این عرضه نشان‌دهنده تغییر اولویت‌ها برای اطمینان از اجرای مدل‌های پیشرفته بر روی شتاب‌دهنده‌های داخلی به جای تکیه بر اکوسیستم CUDA انویدیا است.

DeepSeek این مدل را در 29 سپتامبر اعلام کرد و کد و چک‌پوینت‌ها را به همراه یک گزارش فنی در Hugging Face منتشر نمود. این شرکت V3.2-Exp را به عنوان “گامی میانی به سوی معماری نسل بعدی ما” توصیف می‌کند که برای کاهش هزینه‌های استنتاج با زمینه طولانی طراحی شده است. این مدل دارای مکانیزم توجه پراکنده است که نیازهای حافظه و محاسباتی را کاهش می‌دهد و در عین حال کیفیت خروجی را حفظ می‌کند.

تیم Ascend هواوی و جامعه گسترده‌تر vLLM-Ascend به سرعت برای یکپارچه‌سازی DeepSeek-V3.2-Exp اقدام کردند. در مخزن vLLM-Ascend، یک مسئله جدید مراحل نصب اپراتور سفارشی و بسته‌بندی کرنل برای NPUهای Ascend را برای پشتیبانی از V3.2-Exp تشریح می‌کند. تیم CANN نیز یک دستورالعمل استنتاج منتشر کرد که این مدل را برای استقرار فوری در سراسر سخت‌افزار هواوی آماده می‌سازد.

سایر تراشه‌سازان چینی نیز به این جمع پیوسته‌اند، از جمله Cambricon که به‌روزرسانی‌ای برای فورک vLLM-MLU خود با سازگاری برای V3.2-Exp منتشر کرد و ادعا می‌کند ترکیب موتور استنتاج آن و مکانیزم توجه پراکنده مدل، هزینه‌های پردازش توالی‌های طولانی را کاهش می‌دهد. Hygon نیز اعلام کرد که شتاب‌دهنده‌های DCU آن برای استقرار “بدون انتظار” از طریق پشته نرم‌افزاری DTK خود تنظیم شده‌اند.

در همین حال، SGLang پشتیبانی از V3.2-Exp را در چندین بک‌اند، از جمله Ascend، تأیید کرد، در حالی که یادداشت‌های GitHub DeepSeek نشان‌دهنده برابری با vLLM در زمان عرضه است. DeepSeek خود به طور عمومی در اطلاعیه‌هایش به هر دو کرنل TileLang و CUDA اشاره می‌کند و از محققان می‌خواهد برای نمونه‌سازی از TileLang استفاده کنند. عملاً، این بدان معناست که همان آرتیفکت مدل را می‌توان با حداقل تغییرات گرافیکی در شتاب‌دهنده‌های انویدیا و چینی مستقر کرد.

سرعت بالای پذیرش در اینجا نشان می‌دهد که چگونه اکوسیستم هوش مصنوعی چین به طور غیرقابل انکاری برای آینده‌ای آماده می‌شود که در آن دسترسی به سخت‌افزار انویدیا را نمی‌توان تضمین شده دانست. CUDA انویدیا همچنان برای آموزش و استنتاج غالب است، اما آخرین نسخه DeepSeek یکی از اولین‌ها از یک شرکت بزرگ چینی است که ظاهراً از روز اول برای پشته‌های غیر CUDA بهینه‌سازی شده است.

تلاش هماهنگ در سراسر Ascend، Cambricon و Hygon واضح‌ترین نشانه تا به امروز است که شرکت‌های چینی خواسته‌های پکن برای حاکمیت هوش مصنوعی را جدی گرفته‌اند، نه فقط با سازگار کردن سخت‌افزار خود پس از واقعیت، بلکه با قرار دادن پلتفرم‌های داخلی به عنوان اهداف درجه یک.

برای دریافت اخبار، تحلیل‌ها و بررسی‌های به‌روز ما در فیدهای خود، در Google News دنبال کنید. حتماً دکمه دنبال کردن را کلیک کنید.