هواوی به زودی رابط مقیاس دیتاسنتر UB-Mesh خود را متنباز میکند، جزئیات فنی آن را تشریح میکند
هواوی در رویداد Hot Chips 2025 خود، فناوری UB-Mesh را معرفی کرد که برای یکپارچهسازی تمام اتصالات متقابل در مراکز داده هوش مصنوعی — هم در داخل و هم در خارج از گرهها — با یک پروتکل واحد طراحی شده است. این شرکت همچنین اعلام کرد که ماه آینده در رویداد خود، این پروتکل را به صورت رایگان برای همه کاربران منتشر خواهد کرد. این فناوری قرار است پروتکلهای PCIe، CXL، NVLink و TCP/IP را با یک پروتکل واحد جایگزین کند تا تأخیر را کاهش دهد، هزینهها را کنترل کند و قابلیت اطمینان را در مراکز داده کلاس گیگاوات بهبود بخشد. برای پیشبرد این ابتکار، هواوی قصد دارد مشخصات آن را متنباز کند. اما آیا مورد استقبال قرار خواهد گرفت؟
هنگ لیائو، دانشمند ارشد HiSilicon، بازوی پردازشی هواوی، گفت: «ماه آینده کنفرانسی داریم که در آن اعلام خواهیم کرد پروتکل UB-Mesh مانند یک مجوز رایگان منتشر و برای همه افشا خواهد شد.» او افزود: «این یک فناوری بسیار جدید است؛ ما شاهد تلاشهای استانداردسازی رقابتی از اردوگاههای مختلف هستیم. […] بسته به اینکه چقدر در استقرار سیستمهای واقعی موفق باشیم و تقاضا از سوی شرکا و مشتریان چگونه باشد، میتوانیم در مورد تبدیل آن به نوعی استاندارد صحبت کنیم.»
از یک کلاستر تا SuperNode
در حالی که مراکز داده هوش مصنوعی برای آموزش و استنتاج باید مانند یک پردازنده بزرگ ذاتاً موازی عمل کنند، آنها از رکها، سرورها، CPUها، GPUها، حافظه، SSDها، NICها، سوئیچها و سایر اجزای جداگانه تشکیل شدهاند که با استفاده از باسها و پروتکلهای مختلف مانند UPI، PCIe، CXL، RoCE، NVLink، UALink، TCP/IP و Ultra Ethernet آینده به یکدیگر متصل میشوند. تبدیل پروتکلها نیاز به توان دارد، تأخیر و هزینه را افزایش میدهد و نقاط بالقوه خرابی را معرفی میکند، همه این عوامل میتوانند در مراکز داده کلاس گیگاوات با میلیونها پردازنده به طور فاجعهباری مقیاسپذیر شوند.
به جای مدیریت تعداد زیادی لینک و پروتکل، هواوی یک چارچوب یکپارچه به نام UB-Mesh را پیشنهاد میکند که به هر پورت اجازه میدهد بدون نیاز به ترجمه با پورت دیگر ارتباط برقرار کند. این سادگی تأخیرهای تبدیل را از بین میبرد، طراحی را ساده میکند و همچنان در صورت نیاز امکان کار بر روی اترنت را فراهم میآورد و اساساً کل مرکز داده را به یک SuperNode منسجم متصل به UB-Mesh تبدیل میکند.
هواوی SuperNode را به عنوان یک معماری هوش مصنوعی در مقیاس مرکز داده تعریف میکند که تا 1,000,000 پردازنده (اعم از CPU، GPU، NPU)، حافظه مشترک، SSDها، NICها و سوئیچها را در یک سیستم واحد با پهنای باند هر تراشه از 100 گیگابیت بر ثانیه به 10 ترابیت بر ثانیه (1.25 ترابایت بر ثانیه، فراتر از آنچه حتی PCIe 8.0 قرار است ارائه دهد)، تأخیر هاپ کاهش یافته از میکروثانیه به حدود 150 نانوثانیه، و طراحی کلی که از DMA ناهمزمان به سمت معناشناسی بار/ذخیره همزمان تغییر میکند، یکپارچه میکند.
این ساختار برای کاهش تأخیر، امکان استفاده مجدد انعطافپذیر از تمام اتصالات SERDES با سرعت بالا، و حتی پشتیبانی از عملیات بر روی اترنت برای سازگاری با نسخههای قبلی طراحی شده است.
چالشهای فنی جدید
با این حال، هواوی اذعان میکند که مقیاسبندی این مفهوم در سراسر یک مرکز داده چالشهای جدیدی را به همراه دارد، به ویژه انتقال از مس (که هنوز در داخل رک متصل است) به لینکهای نوری قابل اتصال. فیبر نوری برای فواصل طولانی اجتنابناپذیر است اما با نرخ خطایی بسیار بالاتر از اتصالات الکتریکی همراه است. برای مدیریت این موضوع، هواوی مکانیزمهای تلاش مجدد در سطح لینک، مسیرهای پشتیبان در داخل ماژولهای نوری، و طراحیهای متقاطع را پیشنهاد میکند که کنترلکنندهها را به چندین ماژول متصل میکند. این اقدامات برای اطمینان از عملکرد مداوم حتی در صورت خرابی لینکها یا ماژولهای جداگانه طراحی شدهاند، اگرچه بدیهی است که هزینهها را افزایش میدهند.
توپولوژی شبکه در UB-Mesh هیبریدی است. در سطح بالا، یک ساختار CLOS رکها را در سراسر یک سالن به هم متصل میکند. در زیر آن، مشهای چندبعدی دهها گره را در داخل هر رک به هم پیوند میدهند. این مدل هیبریدی برای جلوگیری از هزینههای سرسامآور طراحیهای سنتی با رشد سیستمها به دهها یا صدها هزار گره در نظر گرفته شده است.
همچنین، قابلیت اطمینان باید فراتر از لینکهای جداگانه پیادهسازی شود. هواوی یک مدل سیستمی را تشریح کرد که در آن رکهای یدکی داغ به طور خودکار در صورت خرابی یک رک دیگر، جایگزین میشوند. سپس رکهای معیوب تعمیر شده و برای حفظ در دسترس بودن دوباره به چرخه بازگردانده میشوند. به گفته هواوی، این طراحی میانگین زمان بین خرابیها را به میزان قابل توجهی افزایش میدهد، مقیاسی از بهبود که برای سیستمهای میلیون تراشهای ضروری است.
کاهش هزینهها
از منظر هزینه، تفاوت فاحش است، بر اساس دادههای هواوی. اتصالات متقابل سنتی با افزایش تعداد گرهها، رشد خطی در هزینهها را نشان میدهند، به این معنی که در نهایت میتوانند از قیمت خود شتابدهندههای هوش مصنوعی (مانند H100 یا B200 انویدیا) پیشی بگیرند. در مقابل، UB-Mesh به صورت زیرخطی مقیاسپذیر است و ظرفیت را بدون افزایش متناسب هزینه اضافه میکند. هواوی حتی به یک سیستم عملی 8,192 گرهای که عناصر CLOS و مش 2D را ترکیب میکند، به عنوان اثبات امکانپذیری اشاره کرد.
پیامدهای استراتژیک
با UB-Mesh و SuperNode، هواوی یک معماری در سطح سیستم ارائه میدهد که برای پشتیبانی از کلاسترهای عظیم هوش مصنوعی در چین و خارج از کشور طراحی شده است. اگر این فناوریها مورد استقبال قرار گیرند، هواوی وابستگی خود را به استانداردهای غربی مانند PCIe، NVLink، UALink و حتی TCP/IP در مراکز داده نسل بعدی خود کاهش خواهد داد (یا بهتر بگوییم متوقف خواهد کرد). هواوی به جای رقابت با AMD، اینتل و انویدیا در زمینه CPU، GPU یا حتی راهحلهای مقیاس رک، در تلاش است تا یک پیشنهاد در مقیاس مرکز داده ایجاد کند.
اما سوال اینجاست که آیا این ابتکار فراتر از هواوی مورد پذیرش قرار خواهد گرفت، زیرا هنوز مشخص نیست که آیا مشتریان این شرکت علاقهمند به دریافت زیرساخت مرکز داده خود از یک تامینکننده واحد خواهند بود یا خیر. به همین منظور، هواوی پروتکل لینک UB-Mesh را برای ارزیابی جهانی منتشر میکند. اگر هواوی در استقرار خود موفق باشد و علاقه کافی از سوی اشخاص ثالث وجود داشته باشد، میتواند UB-Mesh را به یک استاندارد تبدیل کند و شاید حتی معماری SuperNode را نیز استانداردسازی کند.
با این حال، هنوز مشخص نیست که آیا صنعت به این موضوع علاقهمند است یا خیر. انویدیا به اتصالات NVLink خود در داخل رک و اترنت یا InfiniBand در سراسر مرکز داده متکی است. شرکتهای دیگری مانند AMD، Broadcom و اینتل در حال ترویج UALink برای ارتباطات بین پادها و Ultra Ethernet برای اتصالات در سراسر مرکز داده هستند. هر دو فناوری استاندارد شده و توسط طیف وسیعی از شرکتها پشتیبانی میشوند که انعطافپذیری را فراهم کرده و هزینهها را کاهش میدهند.
- کولبات
- شهریور 5, 1404
- 18 بازدید






