China's hybrid-bonded AI accelerators could rival Nvidia's Blackwell GPUs — top semiconductor expert hints at 'fully controllable domestic solution' | Tom's Hardware

شتاب‌دهنده‌های هوش مصنوعی هیبریدی-باندینگ چین می‌توانند با پردازنده‌های گرافیکی Blackwell انویدیا رقابت کنند

وی شائوجون، نایب رئیس انجمن صنعت نیمه‌هادی چین و استاد دانشگاه چینهوا، در یک رویداد صنعتی اظهار داشت که شتاب‌دهنده‌های هوش مصنوعی متشکل از چیپلت‌های منطقی 14 نانومتری و DRAMهای مبتنی بر 18 نانومتر که در چین توسعه یافته‌اند، می‌توانند با پردازنده‌های Blackwell انویدیا که با استفاده از فناوری فرآیند سفارشی 4 نانومتری در TSMC ساخته می‌شوند، رقابت کنند، این خبر را DigiTimes گزارش داده است.

وی شائوجون در اجلاس جهانی مدیران عامل ICC، اشاره کرد که کلید دستیابی به پیشرفت در بهره‌وری عملکرد، فناوری پیشرفته انباشتگی سه‌بعدی (3D stacking) است که برای ساخت شتاب‌دهنده‌های چینی استفاده می‌شود.

وی شائوجون — که پیشتر گفته بود اهداف تعیین شده توسط چین در برنامه ‘ساخت چین 2025’ دست‌نیافتنی هستند و بعدها از کشور خواست تا استفاده از شتاب‌دهنده‌های هوش مصنوعی خارجی مانند Nvidia H20 را متوقف کرده و به جای آن از راه‌حل‌های داخلی استفاده کند — یک «راه‌حل داخلی کاملاً قابل کنترل» فرضی را توصیف کرد که منطق 14 نانومتری را با DRAM 18 نانومتری با استفاده از باندینگ هیبریدی سه‌بعدی ترکیب می‌کند. هیچ مدرکی دال بر وجود چنین راه‌حلی یا امکان ساخت آن با استفاده از فناوری‌های موجود در چین وجود ندارد، بنابراین این سخنرانی صرفاً فرضی است.

به گفته وی، این پیکربندی فرضی قصد دارد با وجود استفاده از فناوری‌های قدیمی، به عملکرد «پردازنده‌های گرافیکی 4 نانومتری» انویدیا نزدیک شود. او معتقد است که چنین راه‌حلی می‌تواند عملکرد 120 ترافلاپس را ارائه دهد، بدون اینکه دقت خاصی را فاش کند. علاوه بر این، او ادعا می‌کند که تنها حدود 60 وات برق مصرف خواهد کرد، بنابراین بهره‌وری عملکرد بالاتری (2 ترافلاپس در هر وات) را در مقایسه با پردازنده‌های Xeon اینتل ارائه می‌دهد. برای مقایسه: پردازنده B200 انویدیا 10,000 ترافلاپس NVFP4 را با 1200 وات ارائه می‌دهد، بنابراین 8.33 ترافلاپس NVFP4 در هر وات را تحویل می‌دهد. B300 نیز 10.7 ترافلاپس NVFP4 در هر وات را ارائه می‌کند که پنج برابر بیشتر از چیزی است که شتاب‌دهنده هوش مصنوعی فرضی می‌تواند ارائه دهد.

فناوری‌های کلیدی که قرار است بهره‌وری عملکرد یک شتاب‌دهنده هوش مصنوعی فرضی توسعه‌یافته در چین را به طور قابل توجهی بهبود بخشند، باندینگ هیبریدی سه‌بعدی (اتصال مس به مس و اکسید) است که برآمدگی‌های لحیم‌کاری را با اتصالات مستقیم مسی در گام‌های زیر 10 میکرومتر جایگزین می‌کند، و همچنین محاسبات نزدیک به حافظه (near-memory computing). باندینگ هیبریدی با گام‌های زیر 10 میکرومتر می‌تواند ده‌ها تا صدها هزار اتصال عمودی در هر میلی‌متر مربع را در کنار مسیرهای سیگنال در مقیاس میکرومتر برای اتصالات با پهنای باند بالا و تأخیر کم امکان‌پذیر سازد.

یکی از بهترین نمونه‌های طراحی باندینگ هیبریدی سه‌بعدی، 3D V-Cache شرکت AMD است که پهنای باند 2.5 ترابایت بر ثانیه را با انرژی ورودی/خروجی 0.05 پیکوژول بر بیت ارائه می‌دهد، بنابراین وی احتمالاً به دنبال رقمی مشابه برای طراحی فرضی خود است. 2.5 ترابایت بر ثانیه در هر دستگاه به طور قابل توجهی بالاتر از چیزی است که HBM3E می‌تواند ارائه دهد، بنابراین می‌تواند یک پیشرفت برای شتاب‌دهنده‌های هوش مصنوعی باشد که بر مفهوم محاسبات نزدیک به حافظه تکیه دارند. وی همچنین گفت که این مفهوم می‌تواند به طور نظری به عملکرد در سطح زتافلاپس مقیاس‌پذیر باشد، اگرچه او مشخص نکرد که چه زمانی و چگونه می‌توان به چنین سطوحی دست یافت.

وی پلتفرم CUDA انویدیا را به عنوان یک ریسک کلیدی نه تنها برای جایگزین فرضی که توصیف کرد، بلکه برای پلتفرم‌های سخت‌افزاری غیر انویدیا نیز شناسایی کرد، زیرا هنگامی که نرم‌افزار، مدل‌ها و سخت‌افزار بر روی یک پلتفرم اختصاصی واحد همگرا شوند، استقرار پردازنده‌های جایگزین دشوار می‌شود. با در نظر گرفتن اینکه او محاسبات نزدیک به حافظه را راهی برای افزایش قابل توجه رقابت‌پذیری سخت‌افزار هوش مصنوعی در حال توسعه در چین می‌دانست، هر پلتفرم جایگزینی که به این مفهوم متکی نباشد (از جمله شتاب‌دهنده‌های هوش مصنوعی چینی مانند سری Ascend هواوی یا پردازنده‌های گرافیکی Biren) ممکن است یک مشکل تلقی شود.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

جستجو در سایت

سبد خرید

درحال بارگذاری ...
بستن
مقایسه
مقایسه محصولات
لیست مقایسه محصولات شما خالی می باشد!