اکوسیستمهای تکهتکه و عرضه محدود: چرا چین نمیتواند از سختافزار انویدیا برای هوش مصنوعی رها شود؟
هفته گذشته شاهد تحولات بزرگی در چشمانداز هوش مصنوعی چین بودیم: ترامپ مالیات فروش ۱۵ درصدی بر سختافزار AMD و انویدیا فروخته شده به چین اعمال کرد، پکن خرید جدید پردازندههای گرافیکی Nvidia H20 را به دلیل نگرانیهای امنیتی متوقف کرد، و DeepSeek برنامههای خود را لغو کرد تا مدل R2 خود را روی NPUهای Ascend هوآوی آموزش دهد — این اتفاقات تردیدهایی را در مورد توانایی چین برای تکیه بر سختافزار داخلی در بخش هوش مصنوعی خود ایجاد میکند.
به عنوان بخشی از برنامههای استراتژیک پنجساله مکرر خود، هدف دیرینه چین دستیابی به استقلال فناوری خود، به ویژه در بخشهای جدید و نوظهور است که آن را برای امنیت ملی خود کلیدی میداند. با این حال، پس از سالها سرمایهگذاری میلیاردها دلار در استارتاپهای ساخت تراشه و صنعت نوپای تراشه خود، این کشور همچنان از همتایان غربی خود عقب است و برای ساخت زنجیره تامین واقعاً مستقل خود که بتواند شتابدهندههای هوش مصنوعی تولید کند، با مشکل مواجه شده است. علاوه بر این، این کشور فاقد یک اکوسیستم نرمافزاری موثر برای رقابت با CUDA انویدیا است که چالشهای بیشتری را ایجاد میکند. در ادامه نگاهی دقیقتر به چگونگی تاثیر این مسائل بر تلاشهای هوش مصنوعی این کشور خواهیم داشت.
چین میخواهد به سختافزار خود متکی باشد
چین از اواسط دهه ۲۰۱۰ یک برنامه خودکفایی برای صنعت نیمههادی خود به طور کلی داشته است. با گذشت زمان، با اعمال تحریمهای ایالات متحده علیه بخشهای فناوری پیشرفته جمهوری خلق، این برنامه برای رسیدگی به ابررایانهها (از جمله آنهایی که قادر به انجام بارهای کاری هوش مصنوعی هستند) و ابزارهای ساخت تراشه تکامل یافت. در سال ۲۰۲۵، چین چندین شتابدهنده هوش مصنوعی داخلی ایجاد کرده است، و هوآوی حتی موفق به توسعه CloudMatrix 384 در مقیاس رک خود شده است.
با این حال، از زمانی که قانون انتشار هوش مصنوعی لغو شد، و دولت وقت ترامپ فروش Instinct MI308 شرکت AMD و HGX H20 شرکت انویدیا را به نهادهای چینی ممنوع کرد، جمهوری خلق چین تلاشهای خود را برای سوق دادن شرکتهای هوش مصنوعی بسیار مهم به استفاده از سختافزار داخلی دوچندان کرد.
در نتیجه، هنگامی که دولت ایالات متحده برنامههای خود را برای اعطای مجوز صادرات به AMD و انویدیا برای فروش شتابدهندههای هوش مصنوعی مخصوص چین به مشتریان در جمهوری خلق اعلام کرد، رئیسجمهور آمریکا، ترامپ، مالیات فروش ۱۵ درصدی بیسابقهای بر سختافزار AMD و انویدیا فروخته شده به چین اعلام کرد.
دولت چین سپس ارسال سختافزار HGX H20 انویدیا را استراتژیک اعلام کرد و به ارائهدهندگان برجسته خدمات ابری دستور داد تا خرید جدید پردازندههای گرافیکی H20 انویدیا را متوقف کنند در حالی که تهدیدات امنیتی ادعایی را بررسی میکند، اقدامی که میتواند به طور بالقوه تقاضا برای سختافزار داخلی را تقویت کند. این ممکن است خبر خوبی برای شرکتهایی مانند Biren Technology، هوآوی، Enflame و Moore Threads باشد.
اما در این داستان یک پیچیدگی وجود دارد — DeepSeek طبق گزارشها مجبور شد آموزش مدل R2 نسل بعدی خود را رها کند روی پلتفرمهای Ascend هوآوی که در داخل کشور توسعه یافتهاند، به دلیل عملکرد ناپایدار، اتصال کندتر تراشه به تراشه، و محدودیتهای کیت ابزار نرمافزاری معماری محاسباتی هوآوی برای شبکههای عصبی (CANN). همه اینها این سوال را مطرح میکند: آیا چین میتواند برای توسعه هوش مصنوعی به سختافزار بومی خود متکی باشد؟
انویدیا در حال تسلط است
انویدیا به مدت یک دهه است که پردازندههای گرافیکی هوش مصنوعی با کارایی بالا را که به طور کامل توسط یک پشته نرمافزاری CUDA پایدار و همهکاره پشتیبانی میشوند، عرضه میکند، بنابراین جای تعجب نیست که بسیاری، اگر نگوییم همه، از هایپراسکیلرهای بزرگ هوش مصنوعی چینی — علیبابا، بایدو، تنسنت، و بازیگران کوچکتر مانند DeepSeek در حال حاضر از سختافزار و نرمافزار انویدیا استفاده میکنند. اگرچه علیبابا و بایدو شتابدهندههای هوش مصنوعی خود را (عمدتاً برای استنتاج) توسعه میدهند، اما همچنان مقادیر زیادی از پردازندههای HGX H20 انویدیا را تهیه میکنند.
SemiAnalysis تخمین زده است که انویدیا سال گذشته حدود یک میلیون پردازنده HGX H20 تولید کرده است، و تقریباً همه آنها توسط نهادهای چینی خریداری شدهاند. هیچ شرکت دیگری در چین تعداد قابل مقایسهای از شتابدهندههای هوش مصنوعی را در سال ۲۰۲۴ عرضه نکرده است. با این حال، تحلیلگر لئونارد هایم معتقد است که هوآوی موفق شده بود حدود سه میلیون دای Ascend 910B را در سال ۲۰۲۴ از TSMC به طور غیرقانونی به دست آورد، که برای ساخت حدود ۱.۴ تا ۱.۵ میلیون تراشه Ascend 910C در سالهای ۲۰۲۴ تا ۲۰۲۵ کافی است. این مقدار با آنچه انویدیا در همان دوره به چین عرضه کرده، قابل مقایسه است. با این حال، در حالی که هوآوی ممکن است پردازندههای Ascend کافی برای آموزش مدلهای هوش مصنوعی Pangu خود داشته باشد، به نظر میرسد شرکتهای دیگر ترجیحات دیگری دارند.
DeepSeek مدل R1 را روی خوشهای از ۵۰,۰۰۰ پردازنده گرافیکی سری Hopper آموزش داد. این خوشه شامل ۳۰,۰۰۰ HGX H20، ۱۰,۰۰۰ H800 و ۱۰,۰۰۰ H100 بود. این تراشهها طبق گزارشها توسط سرمایهگذار DeepSeek، High-Flyer Capital Management، خریداری شدهاند. در نتیجه، منطقی است که کل پشته نرمافزاری DeepSeek — که مسلماً تاثیرگذارترین توسعهدهنده نرمافزار هوش مصنوعی چین است — حول محور CUDA انویدیا ساخته شده باشد.
با این حال، هنگامی که زمان مونتاژ یک ابرخوشه برای آموزش مدل R2 آتی DeepSeek فرا رسید، این شرکت طبق گزارشها توسط مقامات متقاعد شد که به پردازندههای سری Ascend 910 هوآوی روی آورد. اما، هنگامی که با عملکرد ناپایدار، اتصال کندتر تراشه به تراشه، و محدودیتهای کیت ابزار نرمافزاری CANN هوآوی مواجه شد، تصمیم گرفت برای آموزش به سختافزار انویدیا بازگردد، اما از شتابدهندههای هوش مصنوعی Ascend 910 برای استنتاج استفاده کند. در مورد این شتابدهندههای دقیق، ما نمیدانیم که DeepSeek از جدیدترین CloudMatrix 384 هوآوی، مبتنی بر جدیدترین Ascend 910C، استفاده کرده است یا چیز دیگری.
از آنجایی که DeepSeek این چالشها را به طور رسمی فاش نکرده است، ما فقط میتوانیم به گزارشی از فایننشال تایمز تکیه کنیم. این نشریه ادعا میکند که پلتفرمهای Ascend هوآوی برای DeepSeek به خوبی کار نکردهاند. اینکه چرا آنها ناپایدار تلقی شدهاند، سوال دیگری است. این یک احتمال متمایز است که DeepSeek تنها در بهار امسال شروع به کار با CANN کرده است، بنابراین این شرکت به سادگی زمان کافی برای پورت برنامههای خود از CUDA انویدیا به کیت ابزار CANN هوآوی را نداشته است.
گامهایی در مسیر درست
تجزیه و تحلیل صنایع با فناوری پیشرفته در چین بسیار پیچیده است، زیرا شرکتها تمایل دارند اسرار را به شدت محافظت کنند و از رادار دولت ایالات متحده دور بمانند. با این حال، دو عامل مهم که ممکن است تاثیر چشمگیری بر توسعه سختافزار هوش مصنوعی در چین داشته باشند، در تابستان امسال رخ داد. اولاً، اتحاد نوآوری اکوسیستم مدل-تراشه تشکیل شد، و ثانیاً، هوآوی پشته نرمافزاری CANN خود را متنباز کرد.
اتحاد نوآوری اکوسیستم مدل-تراشه شامل هوآوی، Biren Technologies، Enflame و Moore Threads و دیگران است. این گروه قصد دارد یک پشته هوش مصنوعی کاملاً بومیسازی شده را بسازد که سختافزار، مدلها و زیرساختها را به هم پیوند میدهد، که گامی آشکار به دور از انویدیا یا هر سختافزار خارجی دیگر است. موفقیت آن به دستیابی به قابلیت همکاری بین پروتکلها و چارچوبهای مشترک برای کاهش تکهتگی اکوسیستم بستگی دارد. در حالی که یکپارچهسازی نرمافزار سطح پایین به دلیل معماریهای متنوع (مانند Arm، PowerVR، ISAهای سفارشی) ممکن است دشوار باشد، استانداردسازی سطح میانی واقعبینانهتر است.
با همسویی حول APIهای مشترک و فرمتهای مدل، این گروه امیدوار است مدلها را در پلتفرمهای داخلی قابل حمل کند. توسعهدهندگان میتوانند کد را یک بار — مثلاً در PyTorch — بنویسند و آن را روی هر شتابدهنده چینی اجرا کنند. این امر انسجام نرمافزاری را تقویت میکند، نوآوری را ساده میسازد و به چین کمک میکند تا با استفاده از سختافزار خود، یک صنعت هوش مصنوعی رقابتی جهانی بسازد. همچنین اتحادی به نام کمیته هوش مصنوعی اتاق بازرگانی عمومی شانگهای وجود دارد که بر کاربرد هوش مصنوعی در صنایع واقعی تمرکز دارد؛ این نیز سازندگان سختافزار و نرمافزار را متحد میکند.
هوآوی، یا به عنوان بخشی از تعهد به اتحاد جدید، یا به عنوان بخشی از تلاش عمومی برای تبدیل سری Ascend 910 خود به پلتفرم انتخابی در میان شرکتهای چینی، CANN را در اوایل آگوست متنباز کرد، که به طور خاص برای هوش مصنوعی و سختافزار Ascend آن بهینهسازی شده است.
تا تابستان امسال، کیت ابزار هوش مصنوعی هوآوی برای NPUهای Ascend آن به صورت محدود توزیع میشد. توسعهدهندگان به بستههای پیشکامپایل شده، کتابخانههای زمان اجرا و اتصالات دسترسی داشتند که امکان اجرای TensorFlow، PyTorch و MindSpore را روی سختافزار فراهم میکرد. این قطعات به اندازه کافی خوب کار میکردند تا به کاربران اجازه آموزش و استقرار مدلها را بدهند، اما پشته زیرین، مانند کامپایلرها یا کتابخانهها، بسته باقی مانده بود.
CANN متنباز میشود
اکنون، این مانع برداشته شده است. این شرکت کد منبع کامل ابزار CANN را منتشر کرد؛ با این حال، به طور رسمی تأیید نکرد که دقیقاً چه چیزی را متنباز کرده است، بنابراین ما فقط میتوانیم تعجب کنیم یا حدس بزنیم. لیست فناوریهای متنباز شده احتمالاً شامل کامپایلرهایی است که دستورالعملهای مدل را به دستوراتی تبدیل میکنند که NPUهای Ascend میفهمند، مانند APIهای سطح پایین، کتابخانههای عملگرهای هوش مصنوعی که توابع اصلی ریاضی را تسریع میکنند، و یک زمان اجرای سطح سیستم. این امر امکان مدیریت حافظه، زمانبندی و ارتباطات را فراهم میکند. این به طور رسمی تأیید نشده است، بلکه صرفاً یک حدس آگاهانه در مورد آنچه متنباز شدن CANN ممکن است امکانپذیر سازد.
با متنباز کردن CANN، هوآوی میتواند جامعه گستردهای از توسعهدهندگان از دانشگاهها، استارتاپها و سایر شرکتها را به پلتفرم خود جذب کند و آنها را قادر سازد تا با تنظیم عملکرد یا یکپارچهسازی چارچوب (فراتر از TensorFlow و PyTorch) آزمایش کنند. این امر به ناچار تکامل و رفع اشکال CANN را تسریع خواهد کرد. در نهایت، این تلاشها میتوانند CANN را به آنچه CUDA ارائه میدهد نزدیکتر کنند، که یک مزیت مفید برای هوآوی خواهد بود.
برای هوآوی، متنباز کردن CANN پیش از سایر اعضای اتحاد مدل-تراشه سودمند بود، زیرا این شرکت قبلاً بالغترین پلتفرم سختافزاری هوش مصنوعی را در تولید داشت و نیاز داشت پلتفرم Ascend خود را به عنوان اکوسیستم نرمافزاری پایه که دیگران میتوانند به آن تکیه کنند، معرفی کند. این اقدام CANN را به پایه پیشفرض برای مدلها و توسعهدهندگان سختافزار داخلی (حداقل در حال حاضر) تبدیل میکند. با برداشتن این گام اول، هوآوی یک نقطه مرجع برای قابلیت همکاری تعیین کرد و تعهد خود را به استانداردهای مشترک نشان داد، که میتواند به کاهش تکهتگی در پشته نرمافزاری هوش مصنوعی چین کمک کند.
در مورد در دسترس بودن سختافزار چطور؟
اما در حالی که یکپارچهسازی پشته نرمافزاری گامی در مسیر درست است، یک مشکل بزرگ در مورد خودکفایی سختافزاری هوش مصنوعی چین وجود دارد. جمهوری خلق هنوز نمیتواند سختافزاری را تولید کند که از نظر حجم در داخل کشور با AMD یا انویدیا برابر باشد. سختافزاری که میتواند در چین ساخته شود، سالها از پردازندههای توسعه یافته در خاک ایالات متحده عقبتر است.
همه توسعهدهندگان برجسته شتابدهندههای هوش مصنوعی در چین، مانند Biren، هوآوی و Moore Threads، در لیست نهادهای وزارت بازرگانی ایالات متحده قرار دارند. این بدان معناست که آنها به قابلیتهای ساخت پیشرفته TSMC دسترسی ندارند. به همین دلیل، آنها مجبورند تراشههای خود را در SMIC مستقر در چین تولید کنند، که فناوریهای فرآیند آن نمیتواند با آنچه TSMC ارائه میدهد، مطابقت داشته باشد. در حالی که SMIC میتواند تراشهها را با فرآیند ساخت ۷ نانومتری خود تولید کند، هوآوی مجبور شد اکثریت قریب به اتفاق سیلیکون برای پردازندههای Ascend 910B و Ascend 910C خود را با فریب TSMC به دست آورد. شرکتهایی مانند Biren یا Moore’s Threads فاش نمیکنند که از کدام کارخانه ریختهگری استفاده میکنند، اما آنها لوکس انتخاب را ندارند.
البته، نه هوآوی و نه SMIC ثابت نمیمانند. این دو شرکت در حال کار برای پیشبرد صنعت نیمههادی چین و ساخت یک زنجیره تامین ابزارهای ساخت محلی هستند که جایگزین تجهیزات پیشرفتهای شود که SMIC نمیتواند به دست آورد. قبل از این اتفاق، انتظار میرود SMIC شروع به ساخت تراشهها با فناوری فرآیند ۶ نانومتری و حتی گره تولید ۵ نانومتری خود کند، بنابراین ممکن است پردازندههای هوش مصنوعی پیشرفتهای برای هوآوی و دیگر بازیگران بسازد. اما سوال بزرگ این است که آیا حجم تولید میتواند تقاضاهای آموزش و استنتاج هوش مصنوعی را برآورده کند، به خصوص اگر سختافزار انویدیا تا حد زیادی در چین غیرقابل دسترس باشد.
معضل مرغ و تخممرغ چین
بلوغ CANN هوآوی (و پشتههای رقیب) عمدتاً به این دلیل از CUDA انویدیا عقبتر است که پایگاه نصب شده گسترده و پایداری از پردازندههای Ascend در خارج از پروژههای خود هوآوی وجود نداشته است. توسعهدهندگان به دنبال مقیاس هستند، و CUDA به این دلیل غالب شد که میلیونها پردازنده گرافیکی انویدیا عرضه شد و به طور گسترده در دسترس بود، که سرمایهگذاری در تنظیم، کتابخانهها و پشتیبانی جامعه را توجیه میکرد. در مقابل، هوآوی و دیگر توسعهدهندگان چینی پشتههای نرمافزاری اختصاصی خود را دارند و به دلیل تحریمهای دولت ایالات متحده نمیتوانند میلیونها NPU Ascend یا پردازنده گرافیکی Biren را عرضه کنند.
از سوی دیگر، حتی اگر هوآوی و دیگران موفق شوند بازار را با NPUهای Ascend یا پردازندههای گرافیکی Moore Threads پر کنند، یک پشته نرمافزاری ضعیف آنها را برای توسعهدهندگان جذاب نمیکند. تلاش DeepSeek برای آموزش R2 روی Ascend نمونه خوبی است: طبق گزارشها، ناپایداری عملکرد، اتصالات ضعیفتر و عدم بلوغ CANN، پروژه را غیرعملی کرده و مجبور به بازگشت به سختافزار انویدیا برای آموزش شده است. حجم سختافزار به تنهایی این وضعیت را تغییر نخواهد داد.
اتحاد نوآوری اکوسیستم مدل-تراشه جدید در تلاش است تا با تعیین استانداردهای مشترک سطح میانی — مانند فرمتهای مدل مشترک، تعاریف عملگرها و APIهای چارچوب — به این مشکل رسیدگی کند. ایده این است که توسعهدهندگان بتوانند کد را یک بار در PyTorch یا TensorFlow بنویسند و سپس آن را روی هر شتابدهنده هوش مصنوعی چینی، چه از هوآوی، Biren یا فروشنده دیگری باشد، اجرا کنند. با این حال، تا زمانی که این استانداردها واقعاً برقرار نشوند، تکهتگی به این معنی است که هر شرکت با چندین مشکل به طور همزمان روبرو خواهد شد. سختافزار و نرمافزار در یک بازار اشباع شده در چندین جبهه با رقابت روبرو هستند.
در نتیجه، حجم کم شتابدهندههای هوش مصنوعی توسعهیافته در چین، فقدان استانداردهای مشترک و رقابت در جبهههای مختلف، چالش اکوسیستم غالب انویدیا را برای شرکتهای چینی بسیار دشوار خواهد کرد.
- کولبات
- مهر 28, 1404
- 80 بازدید






