شتابدهندههای هوش مصنوعی هیبریدی-باندینگ چین میتوانند با پردازندههای گرافیکی Blackwell انویدیا رقابت کنند
وی شائوجون، نایب رئیس انجمن صنعت نیمههادی چین و استاد دانشگاه چینهوا، در یک رویداد صنعتی اظهار داشت که شتابدهندههای هوش مصنوعی متشکل از چیپلتهای منطقی 14 نانومتری و DRAMهای مبتنی بر 18 نانومتر که در چین توسعه یافتهاند، میتوانند با پردازندههای Blackwell انویدیا که با استفاده از فناوری فرآیند سفارشی 4 نانومتری در TSMC ساخته میشوند، رقابت کنند، این خبر را DigiTimes گزارش داده است.
وی شائوجون در اجلاس جهانی مدیران عامل ICC، اشاره کرد که کلید دستیابی به پیشرفت در بهرهوری عملکرد، فناوری پیشرفته انباشتگی سهبعدی (3D stacking) است که برای ساخت شتابدهندههای چینی استفاده میشود.
وی شائوجون — که پیشتر گفته بود اهداف تعیین شده توسط چین در برنامه ‘ساخت چین 2025’ دستنیافتنی هستند و بعدها از کشور خواست تا استفاده از شتابدهندههای هوش مصنوعی خارجی مانند Nvidia H20 را متوقف کرده و به جای آن از راهحلهای داخلی استفاده کند — یک «راهحل داخلی کاملاً قابل کنترل» فرضی را توصیف کرد که منطق 14 نانومتری را با DRAM 18 نانومتری با استفاده از باندینگ هیبریدی سهبعدی ترکیب میکند. هیچ مدرکی دال بر وجود چنین راهحلی یا امکان ساخت آن با استفاده از فناوریهای موجود در چین وجود ندارد، بنابراین این سخنرانی صرفاً فرضی است.
به گفته وی، این پیکربندی فرضی قصد دارد با وجود استفاده از فناوریهای قدیمی، به عملکرد «پردازندههای گرافیکی 4 نانومتری» انویدیا نزدیک شود. او معتقد است که چنین راهحلی میتواند عملکرد 120 ترافلاپس را ارائه دهد، بدون اینکه دقت خاصی را فاش کند. علاوه بر این، او ادعا میکند که تنها حدود 60 وات برق مصرف خواهد کرد، بنابراین بهرهوری عملکرد بالاتری (2 ترافلاپس در هر وات) را در مقایسه با پردازندههای Xeon اینتل ارائه میدهد. برای مقایسه: پردازنده B200 انویدیا 10,000 ترافلاپس NVFP4 را با 1200 وات ارائه میدهد، بنابراین 8.33 ترافلاپس NVFP4 در هر وات را تحویل میدهد. B300 نیز 10.7 ترافلاپس NVFP4 در هر وات را ارائه میکند که پنج برابر بیشتر از چیزی است که شتابدهنده هوش مصنوعی فرضی میتواند ارائه دهد.
فناوریهای کلیدی که قرار است بهرهوری عملکرد یک شتابدهنده هوش مصنوعی فرضی توسعهیافته در چین را به طور قابل توجهی بهبود بخشند، باندینگ هیبریدی سهبعدی (اتصال مس به مس و اکسید) است که برآمدگیهای لحیمکاری را با اتصالات مستقیم مسی در گامهای زیر 10 میکرومتر جایگزین میکند، و همچنین محاسبات نزدیک به حافظه (near-memory computing). باندینگ هیبریدی با گامهای زیر 10 میکرومتر میتواند دهها تا صدها هزار اتصال عمودی در هر میلیمتر مربع را در کنار مسیرهای سیگنال در مقیاس میکرومتر برای اتصالات با پهنای باند بالا و تأخیر کم امکانپذیر سازد.
یکی از بهترین نمونههای طراحی باندینگ هیبریدی سهبعدی، 3D V-Cache شرکت AMD است که پهنای باند 2.5 ترابایت بر ثانیه را با انرژی ورودی/خروجی 0.05 پیکوژول بر بیت ارائه میدهد، بنابراین وی احتمالاً به دنبال رقمی مشابه برای طراحی فرضی خود است. 2.5 ترابایت بر ثانیه در هر دستگاه به طور قابل توجهی بالاتر از چیزی است که HBM3E میتواند ارائه دهد، بنابراین میتواند یک پیشرفت برای شتابدهندههای هوش مصنوعی باشد که بر مفهوم محاسبات نزدیک به حافظه تکیه دارند. وی همچنین گفت که این مفهوم میتواند به طور نظری به عملکرد در سطح زتافلاپس مقیاسپذیر باشد، اگرچه او مشخص نکرد که چه زمانی و چگونه میتوان به چنین سطوحی دست یافت.
وی پلتفرم CUDA انویدیا را به عنوان یک ریسک کلیدی نه تنها برای جایگزین فرضی که توصیف کرد، بلکه برای پلتفرمهای سختافزاری غیر انویدیا نیز شناسایی کرد، زیرا هنگامی که نرمافزار، مدلها و سختافزار بر روی یک پلتفرم اختصاصی واحد همگرا شوند، استقرار پردازندههای جایگزین دشوار میشود. با در نظر گرفتن اینکه او محاسبات نزدیک به حافظه را راهی برای افزایش قابل توجه رقابتپذیری سختافزار هوش مصنوعی در حال توسعه در چین میدانست، هر پلتفرم جایگزینی که به این مفهوم متکی نباشد (از جمله شتابدهندههای هوش مصنوعی چینی مانند سری Ascend هواوی یا پردازندههای گرافیکی Biren) ممکن است یک مشکل تلقی شود.
- کولبات
- آذر 6, 1404
- 25 بازدید






