Fragmented ecosystems and limited supply: Why China cannot break free from Nvidia hardware for AI | Tom's HardwareTom's Hardware

اکوسیستم‌های تکه‌تکه و عرضه محدود: چرا چین نمی‌تواند از سخت‌افزار انویدیا برای هوش مصنوعی رها شود؟

هفته گذشته شاهد تحولات بزرگی در چشم‌انداز هوش مصنوعی چین بودیم: ترامپ مالیات فروش ۱۵ درصدی بر سخت‌افزار AMD و انویدیا فروخته شده به چین اعمال کرد، پکن خرید جدید پردازنده‌های گرافیکی Nvidia H20 را به دلیل نگرانی‌های امنیتی متوقف کرد، و DeepSeek برنامه‌های خود را لغو کرد تا مدل R2 خود را روی NPUهای Ascend هوآوی آموزش دهد — این اتفاقات تردیدهایی را در مورد توانایی چین برای تکیه بر سخت‌افزار داخلی در بخش هوش مصنوعی خود ایجاد می‌کند.

به عنوان بخشی از برنامه‌های استراتژیک پنج‌ساله مکرر خود، هدف دیرینه چین دستیابی به استقلال فناوری خود، به ویژه در بخش‌های جدید و نوظهور است که آن را برای امنیت ملی خود کلیدی می‌داند. با این حال، پس از سال‌ها سرمایه‌گذاری میلیاردها دلار در استارتاپ‌های ساخت تراشه و صنعت نوپای تراشه خود، این کشور همچنان از همتایان غربی خود عقب است و برای ساخت زنجیره تامین واقعاً مستقل خود که بتواند شتاب‌دهنده‌های هوش مصنوعی تولید کند، با مشکل مواجه شده است. علاوه بر این، این کشور فاقد یک اکوسیستم نرم‌افزاری موثر برای رقابت با CUDA انویدیا است که چالش‌های بیشتری را ایجاد می‌کند. در ادامه نگاهی دقیق‌تر به چگونگی تاثیر این مسائل بر تلاش‌های هوش مصنوعی این کشور خواهیم داشت.

چین می‌خواهد به سخت‌افزار خود متکی باشد

چین از اواسط دهه ۲۰۱۰ یک برنامه خودکفایی برای صنعت نیمه‌هادی خود به طور کلی داشته است. با گذشت زمان، با اعمال تحریم‌های ایالات متحده علیه بخش‌های فناوری پیشرفته جمهوری خلق، این برنامه برای رسیدگی به ابررایانه‌ها (از جمله آنهایی که قادر به انجام بارهای کاری هوش مصنوعی هستند) و ابزارهای ساخت تراشه تکامل یافت. در سال ۲۰۲۵، چین چندین شتاب‌دهنده هوش مصنوعی داخلی ایجاد کرده است، و هوآوی حتی موفق به توسعه CloudMatrix 384 در مقیاس رک خود شده است.

Biren Technology

با این حال، از زمانی که قانون انتشار هوش مصنوعی لغو شد، و دولت وقت ترامپ فروش Instinct MI308 شرکت AMD و HGX H20 شرکت انویدیا را به نهادهای چینی ممنوع کرد، جمهوری خلق چین تلاش‌های خود را برای سوق دادن شرکت‌های هوش مصنوعی بسیار مهم به استفاده از سخت‌افزار داخلی دوچندان کرد.

Nvidia Blackwell and GTC 2024 Nvidia Hopper H100 GPU and DGX systems AMD Radeon AI PRO R9700

در نتیجه، هنگامی که دولت ایالات متحده برنامه‌های خود را برای اعطای مجوز صادرات به AMD و انویدیا برای فروش شتاب‌دهنده‌های هوش مصنوعی مخصوص چین به مشتریان در جمهوری خلق اعلام کرد، رئیس‌جمهور آمریکا، ترامپ، مالیات فروش ۱۵ درصدی بی‌سابقه‌ای بر سخت‌افزار AMD و انویدیا فروخته شده به چین اعلام کرد.

دولت چین سپس ارسال سخت‌افزار HGX H20 انویدیا را استراتژیک اعلام کرد و به ارائه‌دهندگان برجسته خدمات ابری دستور داد تا خرید جدید پردازنده‌های گرافیکی H20 انویدیا را متوقف کنند در حالی که تهدیدات امنیتی ادعایی را بررسی می‌کند، اقدامی که می‌تواند به طور بالقوه تقاضا برای سخت‌افزار داخلی را تقویت کند. این ممکن است خبر خوبی برای شرکت‌هایی مانند Biren Technology، هوآوی، Enflame و Moore Threads باشد.

اما در این داستان یک پیچیدگی وجود دارد — DeepSeek طبق گزارش‌ها مجبور شد آموزش مدل R2 نسل بعدی خود را رها کند روی پلتفرم‌های Ascend هوآوی که در داخل کشور توسعه یافته‌اند، به دلیل عملکرد ناپایدار، اتصال کندتر تراشه به تراشه، و محدودیت‌های کیت ابزار نرم‌افزاری معماری محاسباتی هوآوی برای شبکه‌های عصبی (CANN). همه اینها این سوال را مطرح می‌کند: آیا چین می‌تواند برای توسعه هوش مصنوعی به سخت‌افزار بومی خود متکی باشد؟

انویدیا در حال تسلط است

انویدیا به مدت یک دهه است که پردازنده‌های گرافیکی هوش مصنوعی با کارایی بالا را که به طور کامل توسط یک پشته نرم‌افزاری CUDA پایدار و همه‌کاره پشتیبانی می‌شوند، عرضه می‌کند، بنابراین جای تعجب نیست که بسیاری، اگر نگوییم همه، از هایپراسکیلرهای بزرگ هوش مصنوعی چینی — علی‌بابا، بایدو، تنسنت، و بازیگران کوچک‌تر مانند DeepSeek در حال حاضر از سخت‌افزار و نرم‌افزار انویدیا استفاده می‌کنند. اگرچه علی‌بابا و بایدو شتاب‌دهنده‌های هوش مصنوعی خود را (عمدتاً برای استنتاج) توسعه می‌دهند، اما همچنان مقادیر زیادی از پردازنده‌های HGX H20 انویدیا را تهیه می‌کنند.

H100 AI chip

SemiAnalysis تخمین زده است که انویدیا سال گذشته حدود یک میلیون پردازنده HGX H20 تولید کرده است، و تقریباً همه آنها توسط نهادهای چینی خریداری شده‌اند. هیچ شرکت دیگری در چین تعداد قابل مقایسه‌ای از شتاب‌دهنده‌های هوش مصنوعی را در سال ۲۰۲۴ عرضه نکرده است. با این حال، تحلیلگر لئونارد هایم معتقد است که هوآوی موفق شده بود حدود سه میلیون دای Ascend 910B را در سال ۲۰۲۴ از TSMC به طور غیرقانونی به دست آورد، که برای ساخت حدود ۱.۴ تا ۱.۵ میلیون تراشه Ascend 910C در سال‌های ۲۰۲۴ تا ۲۰۲۵ کافی است. این مقدار با آنچه انویدیا در همان دوره به چین عرضه کرده، قابل مقایسه است. با این حال، در حالی که هوآوی ممکن است پردازنده‌های Ascend کافی برای آموزش مدل‌های هوش مصنوعی Pangu خود داشته باشد، به نظر می‌رسد شرکت‌های دیگر ترجیحات دیگری دارند.

DeepSeek مدل R1 را روی خوشه‌ای از ۵۰,۰۰۰ پردازنده گرافیکی سری Hopper آموزش داد. این خوشه شامل ۳۰,۰۰۰ HGX H20، ۱۰,۰۰۰ H800 و ۱۰,۰۰۰ H100 بود. این تراشه‌ها طبق گزارش‌ها توسط سرمایه‌گذار DeepSeek، High-Flyer Capital Management، خریداری شده‌اند. در نتیجه، منطقی است که کل پشته نرم‌افزاری DeepSeek — که مسلماً تاثیرگذارترین توسعه‌دهنده نرم‌افزار هوش مصنوعی چین است — حول محور CUDA انویدیا ساخته شده باشد.

با این حال، هنگامی که زمان مونتاژ یک ابرخوشه برای آموزش مدل R2 آتی DeepSeek فرا رسید، این شرکت طبق گزارش‌ها توسط مقامات متقاعد شد که به پردازنده‌های سری Ascend 910 هوآوی روی آورد. اما، هنگامی که با عملکرد ناپایدار، اتصال کندتر تراشه به تراشه، و محدودیت‌های کیت ابزار نرم‌افزاری CANN هوآوی مواجه شد، تصمیم گرفت برای آموزش به سخت‌افزار انویدیا بازگردد، اما از شتاب‌دهنده‌های هوش مصنوعی Ascend 910 برای استنتاج استفاده کند. در مورد این شتاب‌دهنده‌های دقیق، ما نمی‌دانیم که DeepSeek از جدیدترین CloudMatrix 384 هوآوی، مبتنی بر جدیدترین Ascend 910C، استفاده کرده است یا چیز دیگری.

از آنجایی که DeepSeek این چالش‌ها را به طور رسمی فاش نکرده است، ما فقط می‌توانیم به گزارشی از فایننشال تایمز تکیه کنیم. این نشریه ادعا می‌کند که پلتفرم‌های Ascend هوآوی برای DeepSeek به خوبی کار نکرده‌اند. اینکه چرا آنها ناپایدار تلقی شده‌اند، سوال دیگری است. این یک احتمال متمایز است که DeepSeek تنها در بهار امسال شروع به کار با CANN کرده است، بنابراین این شرکت به سادگی زمان کافی برای پورت برنامه‌های خود از CUDA انویدیا به کیت ابزار CANN هوآوی را نداشته است.

گام‌هایی در مسیر درست

تجزیه و تحلیل صنایع با فناوری پیشرفته در چین بسیار پیچیده است، زیرا شرکت‌ها تمایل دارند اسرار را به شدت محافظت کنند و از رادار دولت ایالات متحده دور بمانند. با این حال، دو عامل مهم که ممکن است تاثیر چشمگیری بر توسعه سخت‌افزار هوش مصنوعی در چین داشته باشند، در تابستان امسال رخ داد. اولاً، اتحاد نوآوری اکوسیستم مدل-تراشه تشکیل شد، و ثانیاً، هوآوی پشته نرم‌افزاری CANN خود را متن‌باز کرد.

Moore Threads

اتحاد نوآوری اکوسیستم مدل-تراشه شامل هوآوی، Biren Technologies، Enflame و Moore Threads و دیگران است. این گروه قصد دارد یک پشته هوش مصنوعی کاملاً بومی‌سازی شده را بسازد که سخت‌افزار، مدل‌ها و زیرساخت‌ها را به هم پیوند می‌دهد، که گامی آشکار به دور از انویدیا یا هر سخت‌افزار خارجی دیگر است. موفقیت آن به دستیابی به قابلیت همکاری بین پروتکل‌ها و چارچوب‌های مشترک برای کاهش تکه‌تگی اکوسیستم بستگی دارد. در حالی که یکپارچه‌سازی نرم‌افزار سطح پایین به دلیل معماری‌های متنوع (مانند Arm، PowerVR، ISAهای سفارشی) ممکن است دشوار باشد، استانداردسازی سطح میانی واقع‌بینانه‌تر است.

با همسویی حول APIهای مشترک و فرمت‌های مدل، این گروه امیدوار است مدل‌ها را در پلتفرم‌های داخلی قابل حمل کند. توسعه‌دهندگان می‌توانند کد را یک بار — مثلاً در PyTorch — بنویسند و آن را روی هر شتاب‌دهنده چینی اجرا کنند. این امر انسجام نرم‌افزاری را تقویت می‌کند، نوآوری را ساده می‌سازد و به چین کمک می‌کند تا با استفاده از سخت‌افزار خود، یک صنعت هوش مصنوعی رقابتی جهانی بسازد. همچنین اتحادی به نام کمیته هوش مصنوعی اتاق بازرگانی عمومی شانگهای وجود دارد که بر کاربرد هوش مصنوعی در صنایع واقعی تمرکز دارد؛ این نیز سازندگان سخت‌افزار و نرم‌افزار را متحد می‌کند.

هوآوی، یا به عنوان بخشی از تعهد به اتحاد جدید، یا به عنوان بخشی از تلاش عمومی برای تبدیل سری Ascend 910 خود به پلتفرم انتخابی در میان شرکت‌های چینی، CANN را در اوایل آگوست متن‌باز کرد، که به طور خاص برای هوش مصنوعی و سخت‌افزار Ascend آن بهینه‌سازی شده است.

تا تابستان امسال، کیت ابزار هوش مصنوعی هوآوی برای NPUهای Ascend آن به صورت محدود توزیع می‌شد. توسعه‌دهندگان به بسته‌های پیش‌کامپایل شده، کتابخانه‌های زمان اجرا و اتصالات دسترسی داشتند که امکان اجرای TensorFlow، PyTorch و MindSpore را روی سخت‌افزار فراهم می‌کرد. این قطعات به اندازه کافی خوب کار می‌کردند تا به کاربران اجازه آموزش و استقرار مدل‌ها را بدهند، اما پشته زیرین، مانند کامپایلرها یا کتابخانه‌ها، بسته باقی مانده بود.

CANN متن‌باز می‌شود

Huawei

اکنون، این مانع برداشته شده است. این شرکت کد منبع کامل ابزار CANN را منتشر کرد؛ با این حال، به طور رسمی تأیید نکرد که دقیقاً چه چیزی را متن‌باز کرده است، بنابراین ما فقط می‌توانیم تعجب کنیم یا حدس بزنیم. لیست فناوری‌های متن‌باز شده احتمالاً شامل کامپایلرهایی است که دستورالعمل‌های مدل را به دستوراتی تبدیل می‌کنند که NPUهای Ascend می‌فهمند، مانند APIهای سطح پایین، کتابخانه‌های عملگرهای هوش مصنوعی که توابع اصلی ریاضی را تسریع می‌کنند، و یک زمان اجرای سطح سیستم. این امر امکان مدیریت حافظه، زمان‌بندی و ارتباطات را فراهم می‌کند. این به طور رسمی تأیید نشده است، بلکه صرفاً یک حدس آگاهانه در مورد آنچه متن‌باز شدن CANN ممکن است امکان‌پذیر سازد.

با متن‌باز کردن CANN، هوآوی می‌تواند جامعه گسترده‌ای از توسعه‌دهندگان از دانشگاه‌ها، استارتاپ‌ها و سایر شرکت‌ها را به پلتفرم خود جذب کند و آنها را قادر سازد تا با تنظیم عملکرد یا یکپارچه‌سازی چارچوب (فراتر از TensorFlow و PyTorch) آزمایش کنند. این امر به ناچار تکامل و رفع اشکال CANN را تسریع خواهد کرد. در نهایت، این تلاش‌ها می‌توانند CANN را به آنچه CUDA ارائه می‌دهد نزدیک‌تر کنند، که یک مزیت مفید برای هوآوی خواهد بود.

برای هوآوی، متن‌باز کردن CANN پیش از سایر اعضای اتحاد مدل-تراشه سودمند بود، زیرا این شرکت قبلاً بالغ‌ترین پلتفرم سخت‌افزاری هوش مصنوعی را در تولید داشت و نیاز داشت پلتفرم Ascend خود را به عنوان اکوسیستم نرم‌افزاری پایه که دیگران می‌توانند به آن تکیه کنند، معرفی کند. این اقدام CANN را به پایه پیش‌فرض برای مدل‌ها و توسعه‌دهندگان سخت‌افزار داخلی (حداقل در حال حاضر) تبدیل می‌کند. با برداشتن این گام اول، هوآوی یک نقطه مرجع برای قابلیت همکاری تعیین کرد و تعهد خود را به استانداردهای مشترک نشان داد، که می‌تواند به کاهش تکه‌تگی در پشته نرم‌افزاری هوش مصنوعی چین کمک کند.

در مورد در دسترس بودن سخت‌افزار چطور؟

اما در حالی که یکپارچه‌سازی پشته نرم‌افزاری گامی در مسیر درست است، یک مشکل بزرگ در مورد خودکفایی سخت‌افزاری هوش مصنوعی چین وجود دارد. جمهوری خلق هنوز نمی‌تواند سخت‌افزاری را تولید کند که از نظر حجم در داخل کشور با AMD یا انویدیا برابر باشد. سخت‌افزاری که می‌تواند در چین ساخته شود، سال‌ها از پردازنده‌های توسعه یافته در خاک ایالات متحده عقب‌تر است.

Biren Technology

همه توسعه‌دهندگان برجسته شتاب‌دهنده‌های هوش مصنوعی در چین، مانند Biren، هوآوی و Moore Threads، در لیست نهادهای وزارت بازرگانی ایالات متحده قرار دارند. این بدان معناست که آنها به قابلیت‌های ساخت پیشرفته TSMC دسترسی ندارند. به همین دلیل، آنها مجبورند تراشه‌های خود را در SMIC مستقر در چین تولید کنند، که فناوری‌های فرآیند آن نمی‌تواند با آنچه TSMC ارائه می‌دهد، مطابقت داشته باشد. در حالی که SMIC می‌تواند تراشه‌ها را با فرآیند ساخت ۷ نانومتری خود تولید کند، هوآوی مجبور شد اکثریت قریب به اتفاق سیلیکون برای پردازنده‌های Ascend 910B و Ascend 910C خود را با فریب TSMC به دست آورد. شرکت‌هایی مانند Biren یا Moore’s Threads فاش نمی‌کنند که از کدام کارخانه ریخته‌گری استفاده می‌کنند، اما آنها لوکس انتخاب را ندارند.

البته، نه هوآوی و نه SMIC ثابت نمی‌مانند. این دو شرکت در حال کار برای پیشبرد صنعت نیمه‌هادی چین و ساخت یک زنجیره تامین ابزارهای ساخت محلی هستند که جایگزین تجهیزات پیشرفته‌ای شود که SMIC نمی‌تواند به دست آورد. قبل از این اتفاق، انتظار می‌رود SMIC شروع به ساخت تراشه‌ها با فناوری فرآیند ۶ نانومتری و حتی گره تولید ۵ نانومتری خود کند، بنابراین ممکن است پردازنده‌های هوش مصنوعی پیشرفته‌ای برای هوآوی و دیگر بازیگران بسازد. اما سوال بزرگ این است که آیا حجم تولید می‌تواند تقاضاهای آموزش و استنتاج هوش مصنوعی را برآورده کند، به خصوص اگر سخت‌افزار انویدیا تا حد زیادی در چین غیرقابل دسترس باشد.

معضل مرغ و تخم‌مرغ چین

بلوغ CANN هوآوی (و پشته‌های رقیب) عمدتاً به این دلیل از CUDA انویدیا عقب‌تر است که پایگاه نصب شده گسترده و پایداری از پردازنده‌های Ascend در خارج از پروژه‌های خود هوآوی وجود نداشته است. توسعه‌دهندگان به دنبال مقیاس هستند، و CUDA به این دلیل غالب شد که میلیون‌ها پردازنده گرافیکی انویدیا عرضه شد و به طور گسترده در دسترس بود، که سرمایه‌گذاری در تنظیم، کتابخانه‌ها و پشتیبانی جامعه را توجیه می‌کرد. در مقابل، هوآوی و دیگر توسعه‌دهندگان چینی پشته‌های نرم‌افزاری اختصاصی خود را دارند و به دلیل تحریم‌های دولت ایالات متحده نمی‌توانند میلیون‌ها NPU Ascend یا پردازنده گرافیکی Biren را عرضه کنند.

از سوی دیگر، حتی اگر هوآوی و دیگران موفق شوند بازار را با NPUهای Ascend یا پردازنده‌های گرافیکی Moore Threads پر کنند، یک پشته نرم‌افزاری ضعیف آنها را برای توسعه‌دهندگان جذاب نمی‌کند. تلاش DeepSeek برای آموزش R2 روی Ascend نمونه خوبی است: طبق گزارش‌ها، ناپایداری عملکرد، اتصالات ضعیف‌تر و عدم بلوغ CANN، پروژه را غیرعملی کرده و مجبور به بازگشت به سخت‌افزار انویدیا برای آموزش شده است. حجم سخت‌افزار به تنهایی این وضعیت را تغییر نخواهد داد.

اتحاد نوآوری اکوسیستم مدل-تراشه جدید در تلاش است تا با تعیین استانداردهای مشترک سطح میانی — مانند فرمت‌های مدل مشترک، تعاریف عملگرها و APIهای چارچوب — به این مشکل رسیدگی کند. ایده این است که توسعه‌دهندگان بتوانند کد را یک بار در PyTorch یا TensorFlow بنویسند و سپس آن را روی هر شتاب‌دهنده هوش مصنوعی چینی، چه از هوآوی، Biren یا فروشنده دیگری باشد، اجرا کنند. با این حال، تا زمانی که این استانداردها واقعاً برقرار نشوند، تکه‌تگی به این معنی است که هر شرکت با چندین مشکل به طور همزمان روبرو خواهد شد. سخت‌افزار و نرم‌افزار در یک بازار اشباع شده در چندین جبهه با رقابت روبرو هستند.

در نتیجه، حجم کم شتاب‌دهنده‌های هوش مصنوعی توسعه‌یافته در چین، فقدان استانداردهای مشترک و رقابت در جبهه‌های مختلف، چالش اکوسیستم غالب انویدیا را برای شرکت‌های چینی بسیار دشوار خواهد کرد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

جستجو در سایت

سبد خرید

درحال بارگذاری ...
بستن
مقایسه
مقایسه محصولات
لیست مقایسه محصولات شما خالی می باشد!