Huawei to open-source its UB-Mesh data center-scale interconnect soon, details technical aspects — one interconnect to rule them all is designed to replace everything from PCIe to TCP/IP | Tom's Hardware

هواوی به زودی رابط مقیاس دیتاسنتر UB-Mesh خود را متن‌باز می‌کند، جزئیات فنی آن را تشریح می‌کند

هواوی در رویداد Hot Chips 2025 خود، فناوری UB-Mesh را معرفی کرد که برای یکپارچه‌سازی تمام اتصالات متقابل در مراکز داده هوش مصنوعی — هم در داخل و هم در خارج از گره‌ها — با یک پروتکل واحد طراحی شده است. این شرکت همچنین اعلام کرد که ماه آینده در رویداد خود، این پروتکل را به صورت رایگان برای همه کاربران منتشر خواهد کرد. این فناوری قرار است پروتکل‌های PCIe، CXL، NVLink و TCP/IP را با یک پروتکل واحد جایگزین کند تا تأخیر را کاهش دهد، هزینه‌ها را کنترل کند و قابلیت اطمینان را در مراکز داده کلاس گیگاوات بهبود بخشد. برای پیشبرد این ابتکار، هواوی قصد دارد مشخصات آن را متن‌باز کند. اما آیا مورد استقبال قرار خواهد گرفت؟

هنگ لیائو، دانشمند ارشد HiSilicon، بازوی پردازشی هواوی، گفت: «ماه آینده کنفرانسی داریم که در آن اعلام خواهیم کرد پروتکل UB-Mesh مانند یک مجوز رایگان منتشر و برای همه افشا خواهد شد.» او افزود: «این یک فناوری بسیار جدید است؛ ما شاهد تلاش‌های استانداردسازی رقابتی از اردوگاه‌های مختلف هستیم. […] بسته به اینکه چقدر در استقرار سیستم‌های واقعی موفق باشیم و تقاضا از سوی شرکا و مشتریان چگونه باشد، می‌توانیم در مورد تبدیل آن به نوعی استاندارد صحبت کنیم.»

از یک کلاستر تا SuperNode

در حالی که مراکز داده هوش مصنوعی برای آموزش و استنتاج باید مانند یک پردازنده بزرگ ذاتاً موازی عمل کنند، آنها از رک‌ها، سرورها، CPUها، GPUها، حافظه، SSDها، NICها، سوئیچ‌ها و سایر اجزای جداگانه تشکیل شده‌اند که با استفاده از باس‌ها و پروتکل‌های مختلف مانند UPI، PCIe، CXL، RoCE، NVLink، UALink، TCP/IP و Ultra Ethernet آینده به یکدیگر متصل می‌شوند. تبدیل پروتکل‌ها نیاز به توان دارد، تأخیر و هزینه را افزایش می‌دهد و نقاط بالقوه خرابی را معرفی می‌کند، همه این عوامل می‌توانند در مراکز داده کلاس گیگاوات با میلیون‌ها پردازنده به طور فاجعه‌باری مقیاس‌پذیر شوند.

هواوی انویدیا تراشه هوش مصنوعی هواوی Ascend هواوی

به جای مدیریت تعداد زیادی لینک و پروتکل، هواوی یک چارچوب یکپارچه به نام UB-Mesh را پیشنهاد می‌کند که به هر پورت اجازه می‌دهد بدون نیاز به ترجمه با پورت دیگر ارتباط برقرار کند. این سادگی تأخیرهای تبدیل را از بین می‌برد، طراحی را ساده می‌کند و همچنان در صورت نیاز امکان کار بر روی اترنت را فراهم می‌آورد و اساساً کل مرکز داده را به یک SuperNode منسجم متصل به UB-Mesh تبدیل می‌کند.

هواوی هواوی

هواوی SuperNode را به عنوان یک معماری هوش مصنوعی در مقیاس مرکز داده تعریف می‌کند که تا 1,000,000 پردازنده (اعم از CPU، GPU، NPU)، حافظه مشترک، SSDها، NICها و سوئیچ‌ها را در یک سیستم واحد با پهنای باند هر تراشه از 100 گیگابیت بر ثانیه به 10 ترابیت بر ثانیه (1.25 ترابایت بر ثانیه، فراتر از آنچه حتی PCIe 8.0 قرار است ارائه دهد)، تأخیر هاپ کاهش یافته از میکروثانیه به حدود 150 نانوثانیه، و طراحی کلی که از DMA ناهمزمان به سمت معناشناسی بار/ذخیره همزمان تغییر می‌کند، یکپارچه می‌کند.

این ساختار برای کاهش تأخیر، امکان استفاده مجدد انعطاف‌پذیر از تمام اتصالات SERDES با سرعت بالا، و حتی پشتیبانی از عملیات بر روی اترنت برای سازگاری با نسخه‌های قبلی طراحی شده است.

چالش‌های فنی جدید

با این حال، هواوی اذعان می‌کند که مقیاس‌بندی این مفهوم در سراسر یک مرکز داده چالش‌های جدیدی را به همراه دارد، به ویژه انتقال از مس (که هنوز در داخل رک متصل است) به لینک‌های نوری قابل اتصال. فیبر نوری برای فواصل طولانی اجتناب‌ناپذیر است اما با نرخ خطایی بسیار بالاتر از اتصالات الکتریکی همراه است. برای مدیریت این موضوع، هواوی مکانیزم‌های تلاش مجدد در سطح لینک، مسیرهای پشتیبان در داخل ماژول‌های نوری، و طراحی‌های متقاطع را پیشنهاد می‌کند که کنترل‌کننده‌ها را به چندین ماژول متصل می‌کند. این اقدامات برای اطمینان از عملکرد مداوم حتی در صورت خرابی لینک‌ها یا ماژول‌های جداگانه طراحی شده‌اند، اگرچه بدیهی است که هزینه‌ها را افزایش می‌دهند.

هواوی

توپولوژی شبکه در UB-Mesh هیبریدی است. در سطح بالا، یک ساختار CLOS رک‌ها را در سراسر یک سالن به هم متصل می‌کند. در زیر آن، مش‌های چندبعدی ده‌ها گره را در داخل هر رک به هم پیوند می‌دهند. این مدل هیبریدی برای جلوگیری از هزینه‌های سرسام‌آور طراحی‌های سنتی با رشد سیستم‌ها به ده‌ها یا صدها هزار گره در نظر گرفته شده است.

هواوی

همچنین، قابلیت اطمینان باید فراتر از لینک‌های جداگانه پیاده‌سازی شود. هواوی یک مدل سیستمی را تشریح کرد که در آن رک‌های یدکی داغ به طور خودکار در صورت خرابی یک رک دیگر، جایگزین می‌شوند. سپس رک‌های معیوب تعمیر شده و برای حفظ در دسترس بودن دوباره به چرخه بازگردانده می‌شوند. به گفته هواوی، این طراحی میانگین زمان بین خرابی‌ها را به میزان قابل توجهی افزایش می‌دهد، مقیاسی از بهبود که برای سیستم‌های میلیون تراشه‌ای ضروری است.

کاهش هزینه‌ها

از منظر هزینه، تفاوت فاحش است، بر اساس داده‌های هواوی. اتصالات متقابل سنتی با افزایش تعداد گره‌ها، رشد خطی در هزینه‌ها را نشان می‌دهند، به این معنی که در نهایت می‌توانند از قیمت خود شتاب‌دهنده‌های هوش مصنوعی (مانند H100 یا B200 انویدیا) پیشی بگیرند. در مقابل، UB-Mesh به صورت زیرخطی مقیاس‌پذیر است و ظرفیت را بدون افزایش متناسب هزینه اضافه می‌کند. هواوی حتی به یک سیستم عملی 8,192 گره‌ای که عناصر CLOS و مش 2D را ترکیب می‌کند، به عنوان اثبات امکان‌پذیری اشاره کرد.

هواوی

پیامدهای استراتژیک

هواوی هواوی هواوی هواوی هواوی هواوی هواوی هواوی هواوی هواوی هواوی هواوی هواوی

با UB-Mesh و SuperNode، هواوی یک معماری در سطح سیستم ارائه می‌دهد که برای پشتیبانی از کلاسترهای عظیم هوش مصنوعی در چین و خارج از کشور طراحی شده است. اگر این فناوری‌ها مورد استقبال قرار گیرند، هواوی وابستگی خود را به استانداردهای غربی مانند PCIe، NVLink، UALink و حتی TCP/IP در مراکز داده نسل بعدی خود کاهش خواهد داد (یا بهتر بگوییم متوقف خواهد کرد). هواوی به جای رقابت با AMD، اینتل و انویدیا در زمینه CPU، GPU یا حتی راه‌حل‌های مقیاس رک، در تلاش است تا یک پیشنهاد در مقیاس مرکز داده ایجاد کند.

اما سوال اینجاست که آیا این ابتکار فراتر از هواوی مورد پذیرش قرار خواهد گرفت، زیرا هنوز مشخص نیست که آیا مشتریان این شرکت علاقه‌مند به دریافت زیرساخت مرکز داده خود از یک تامین‌کننده واحد خواهند بود یا خیر. به همین منظور، هواوی پروتکل لینک UB-Mesh را برای ارزیابی جهانی منتشر می‌کند. اگر هواوی در استقرار خود موفق باشد و علاقه کافی از سوی اشخاص ثالث وجود داشته باشد، می‌تواند UB-Mesh را به یک استاندارد تبدیل کند و شاید حتی معماری SuperNode را نیز استانداردسازی کند.

با این حال، هنوز مشخص نیست که آیا صنعت به این موضوع علاقه‌مند است یا خیر. انویدیا به اتصالات NVLink خود در داخل رک و اترنت یا InfiniBand در سراسر مرکز داده متکی است. شرکت‌های دیگری مانند AMD، Broadcom و اینتل در حال ترویج UALink برای ارتباطات بین پادها و Ultra Ethernet برای اتصالات در سراسر مرکز داده هستند. هر دو فناوری استاندارد شده و توسط طیف وسیعی از شرکت‌ها پشتیبانی می‌شوند که انعطاف‌پذیری را فراهم کرده و هزینه‌ها را کاهش می‌دهند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

جستجو در سایت

سبد خرید

درحال بارگذاری ...
بستن
مقایسه
مقایسه محصولات
لیست مقایسه محصولات شما خالی می باشد!