Nvidia's Vera Rubin platform in depth — Inside Nvidia's most complex AI and HPC platform to date | Tom's Hardware

پلتفرم ورا روبین انویدیا در عمق

در حالی که انویدیا میلیون‌ها پردازنده Grace و پردازنده گرافیکی هوش مصنوعی Blackwell را به مراکز داده در سراسر جهان ارسال می‌کند، این شرکت سخت در تلاش است تا پلتفرم هوش مصنوعی و HPC نسل بعدی خود، ورا روبین، را راه‌اندازی کند که انتظار می‌رود استاندارد جدیدی برای عملکرد و کارایی تعیین کند. ورا روبین انویدیا نه یک یا دو، بلکه شامل نُه پردازنده جداگانه است که هر یک برای یک بار کاری خاص طراحی شده‌اند و یکی از پیچیده‌ترین پلتفرم‌های مرکز داده را تا کنون ایجاد کرده‌اند.

در حالی که انویدیا جزئیات بیشتری را در مورد ورا روبین خود در طول سال آینده و پیش از عرضه رسمی آن در اواخر سال 2025 فاش خواهد کرد، بیایید آنچه را که قبلاً در مورد این پلتفرم می‌دانیم، مرور کنیم، زیرا این شرکت جزئیات قابل توجهی را فاش کرده است.

در یک نگاه

در بخش سخت‌افزار، پلتفرم ورا روبین انویدیا، معماری محاسباتی هوش مصنوعی در مقیاس رک نسل بعدی آن است که حول مجموعه‌ای از اجزای به شدت یکپارچه ساخته شده است. این اجزا شامل موارد زیر هستند: یک پردازنده Vera با 88 هسته، پردازنده گرافیکی Rubin با 288 گیگابایت حافظه HBM4، پردازنده گرافیکی Rubin CPX با 128 گیگابایت GDDR7، سوئیچ ASIC NVLink 6.0 برای اتصال در مقیاس رک، DPU BlueField-4 با SSD یکپارچه برای ذخیره کش کلید-مقدار، اترنت فوتونیک Spectrum-6 و NICهای InfiniBand فوتونیک Quantum-CX9 با سرعت 1.6 ترابیت بر ثانیه، و همچنین سیلیکون سوئیچینگ اترنت فوتونیک Spectrum-X و InfiniBand فوتونیک Quantum-CX9 برای اتصال در مقیاس گسترده.

Nvidia

یک رک کامل NVL144، تعداد 144 پردازنده گرافیکی Rubin (در 72 بسته) را با 20,736 ترابایت حافظه HBM4 و 36 پردازنده Vera یکپارچه می‌کند تا حداکثر 3.6 اگزافلاپس NVFP4 برای استنتاج و حداکثر 1.2 اگزافلاپس FP8 برای عملکرد آموزش ارائه دهد. در مقابل، NVL144 CPX با استفاده از شتاب‌دهنده‌های Rubin CPX تقریباً 8 اگزافلاپس NVFP4 برای استنتاج به دست می‌آورد که چگالی محاسباتی بسیار بیشتری را فراهم می‌کند.

در بخش نرم‌افزار، نسل Rubin برای دقت FP4/FP6، استنتاج با میلیون‌ها توکن و بارهای کاری مولد چندوجهی بهینه‌سازی شده است. سیستم‌های CPX با ارکستراتور استنتاج Dynamo انویدیا که بر پایه CUDA 13 ساخته شده است، عرضه خواهند شد. این ارکستراتور برای مدیریت هوشمندانه و تقسیم بارهای کاری استنتاج در انواع مختلف پردازنده‌های گرافیکی در یک سیستم غیرمتمرکز طراحی شده است.

علاوه بر این، Smart Router و GPU Planner انویدیا به صورت پویا بارهای کاری پیش‌پر کردن و رمزگشایی را در میان نمونه‌های Mixture-of-Experts (MoE) متعادل می‌کنند تا بهره‌وری و زمان پاسخ را بهبود بخشند. همچنین، لایه توسعه اتصال داخلی (NIXL) انویدیا انتقال داده بدون کپی را بین پردازنده‌های گرافیکی و NICها از طریق InfiniBand GPUDirect Async (IBGDA) امکان‌پذیر می‌سازد تا تأخیر و سربار CPU را کاهش دهد. در همین حال، گفته می‌شود که تخلیه کش کلید-مقدار NVMe به نرخ موفقیت 50% تا 60% دست می‌یابد و امکان حفظ کارآمد زمینه مکالمه چند مرحله‌ای را فراهم می‌کند. در نهایت، انتظار می‌رود کتابخانه جدید NCCL 2.24 تأخیر پیام‌های کوچک را 4 برابر کاهش دهد و امکان مقیاس‌بندی مدل‌های هوش مصنوعی عامل با تریلیون‌ها پارامتر را با ارتباطات بین پردازنده گرافیکی بسیار سریع‌تر فراهم کند.

صادقانه بگوییم، این ویژگی‌ها مختص پلتفرم ورا روبین نیستند، اما سیستم‌های کلاس Rubin بیشترین بهره را از آنها می‌برند، زیرا این پلتفرم به طور خاص برای بهره‌برداری از آنها در مقیاس بزرگ طراحی شده است. اما چه چیزی در مورد پلتفرم ورا روبین خاص است؟ بیایید کمی عمیق‌تر بررسی کنیم.

پردازنده Vera

پلتفرم‌های Vera Rubin NVL144 و Rubin Ultra 576 انویدیا از پردازنده‌های سفارشی Vera انویدیا استفاده می‌کنند که به طور خاص برای زیرساخت‌های هوش مصنوعی در سطح مرکز داده طراحی شده‌اند و نوید افزایش عملکرد دو برابری را در مقایسه با نسل قبلی، Grace، می‌دهند.

Nvidia

این پردازنده شامل 88 هسته اختصاصی کلاس Armv9 (که انحرافی از Grace است که از هسته‌های Arm Neoverse V2 استفاده می‌کند) با قابلیت چندرشته‌ای همزمان 2 طرفه است که امکان اجرای همزمان تا 176 رشته را فراهم می‌کند. این هسته‌های جدید Arm v9.2، که به صورت داخلی Olympus نامیده می‌شوند، بر یک خط لوله گسترده خارج از ترتیب (out-of-order) متکی هستند و مجموعه‌ای وسیع از افزونه‌های اختیاری (SVE2، رمزنگاری، FP8/BF16، برچسب‌گذاری، RNG، LS64 و غیره) را ارائه می‌دهند. اسناد انویدیا نشان می‌دهد که SMT بر عملکرد هر رشته تأثیر می‌گذارد — به عنوان مثال، اکثر خطوط لوله با فعال بودن دو رشته، توان عملیاتی هر رشته را به نصف کاهش می‌دهند، به جز چند مورد اختصاصی برای هر رشته، بنابراین توسعه‌دهندگان باید تصمیم بگیرند که آیا از SMT برای یک بار کاری مشخص استفاده کنند یا یک رشته در هر هسته را حفظ کنند.

انویدیا همچنان از Scalable Coherency Fabric (SCF) خود در داخل پردازنده برای اتصال هسته‌ها و کنترل‌کننده‌های حافظه به یکدیگر استفاده می‌کند، اما این بار، پهنای باند حافظه پردازنده به 1.2 ترابایت بر ثانیه می‌رسد که 20% بیشتر از Grace است. در مورد حافظه سیستم، Vera همچنان از LPDDR5X استفاده می‌کند، اما اکنون برای چگالی بیشتر از ماژول‌های SOCAMM2 بهره می‌برد.

Vera از NVLink-C2C به عنوان پیوند منسجم CPU به GPU استفاده می‌کند، همان فناوری Grace-Blackwell، اما با پهنای باند بالاتر. Grace پهنای باند دوطرفه 900 گیگابایت بر ثانیه را ارائه می‌دهد، اما با پلتفرم ورا روبین، این پهنای باند تقریباً دو برابر شده و به 1.8 ترابایت بر ثانیه در هر CPU می‌رسد.

تصاویر اخیر منتشر شده از پردازنده Vera نشان می‌دهد که این پردازنده به نظر نمی‌رسد دارای طراحی یکپارچه باشد، بلکه طراحی چندچیپلت دارد، زیرا دارای درزهای داخلی قابل مشاهده است. یک تصویر نشان می‌دهد که پردازنده Vera دارای یک چیپلت I/O متمایز است که در کنار آن قرار دارد. همچنین، تصویر ویژگی‌های سبز رنگی را نشان می‌دهد که از پدهای I/O دای CPU ساطع می‌شوند؛ هدف آنها ناشناخته است. شاید برخی از قابلیت‌های I/O Vera توسط چیپلت‌های خارجی زیر CPU فعال می‌شوند، اما این فقط یک گمانه‌زنی است.

به صورت عمومی، هنوز شکاف‌های بزرگی در اطلاعات مربوط به پردازنده Vera انویدیا وجود دارد. هیچ سرعت کلاک رسمی، اندازه کش هر هسته، توپولوژی دقیق L2/L3 یا TDP وجود ندارد. همچنین اطلاعات محدودی در مورد پیکربندی‌های NUMA/سوکت خارج از زمینه رک NVL144/NVL576 داریم.

پردازنده گرافیکی Rubin

پردازنده گرافیکی Rubin، بدون شک، قلب (یا قلب‌ها، زیرا دو عدد از آنها در هر برد وجود دارد) پلتفرم ورا روبین انویدیا است. اولین پردازنده گرافیکی Rubin — بیایید آن را R200 بنامیم — دارای دو کاشی محاسباتی تقریباً به اندازه رتیکل است که با فناوری فرآیند 3 نانومتری TSMC تولید شده‌اند، یک جفت دای I/O اختصاصی و 288 گیگابایت حافظه HBM4 با سرعت 6.4 گیگاترنسفر بر ثانیه که در هشت پشته چیده شده‌اند و تقریباً 13 ترابایت بر ثانیه پهنای باند تجمعی ارائه می‌دهند. توجه داشته باشید که از R200 به بعد، انویدیا دای‌های GPU را به عنوان ‘GPU’ شمارش خواهد کرد، نه بسته‌های GPU، بنابراین اگرچه پلتفرم NVL144 شامل 72 بسته GPU است، انویدیا اکنون آنها را 144 GPU می‌بیند.

Nvidia data center GPU roadmap 2025 showing Rubin and Rubin Ultra

پردازنده‌های گرافیکی Rubin برای افزایش بیشتر توان عملیاتی هوش مصنوعی با دقت پایین برای استنتاج و هوش مصنوعی عامل طراحی شده‌اند، اما همچنین برای افزایش قابل توجه عملکرد آموزش در مقایسه با Blackwell Ultra، زیرا انویدیا 50 پتافلاپس FP4 و تقریباً 16 پتافلاپس FP8 عملکرد را برای هر پردازنده گرافیکی R200 وعده می‌دهد که به ترتیب 3.3 و 1.6 برابر بیشتر از Blackwell Ultra است. انویدیا هنوز عملکرد فرمت‌های با دقت بالاتر را مشخص نکرده است، اما افزایش‌های نسلی قابل توجهی به طور طبیعی پیش‌بینی می‌شود.

بهبود عملکرد با یک معاوضه واضح همراه خواهد بود: مصرف برق. راهنمایی‌های فعلی به حدود 1.8 کیلووات در هر پردازنده گرافیکی اشاره دارد که هم زیرساخت و هم نیازهای خنک‌کننده را برای خوشه‌های بزرگ افزایش می‌دهد. با این حال، افزایش 0.4 کیلووات در هر پردازنده گرافیکی در مقایسه با افزایش عملکرد 1.6 تا 3.3 برابری ناچیز به نظر می‌رسد. پلتفرم Vera Rubin NVL144 انویدیا همچنان از رک Oberon که برای Blackwell/Blackwell Ultra NVL72 استفاده می‌شد، بهره خواهد برد که به نظر می‌رسد با تغییرات جزئی در سیستم خنک‌کننده خود، آماده خنک کردن پردازنده‌های گرافیکی 1.8 کیلوواتی است.

Nvidia data center GPU roadmap 2025 showing Rubin and Rubin Ultra

نسخه به‌روزرسانی بعدی، معروف به پلتفرم Rubin Ultra، برای سال 2027 هدف‌گذاری شده است و قصد دارد با انتقال از دو چیپلت محاسباتی به چهار چیپلت، عملکرد را دو برابر کند، که انتظار می‌رود عملکرد استنتاج FP4 را به حدود 100 پتافلاپس در هر بسته GPU افزایش دهد. ظرفیت حافظه Rubin Ultra نیز به طور چشمگیری گسترش خواهد یافت و به 1 ترابایت HBM4E می‌رسد که تقریباً 32 ترابایت بر ثانیه پهنای باند ارائه می‌دهد. پیش‌بینی می‌شود چنین پیکربندی 3.6 کیلووات مصرف کند که به یک سیستم خنک‌کننده کاملاً جدید برای بسته‌های GPU و یک رک Kyber کاملاً جدید نیاز دارد. در واقع، Kyber تعداد 576 پردازنده گرافیکی را در 144 بسته GPU جای خواهد داد و بدین ترتیب اندازه دنیای مقیاس‌پذیری انویدیا را به طور قابل توجهی گسترش می‌دهد.

انتظار می‌رود هر دو Rubin و Rubin Ultra به فناوری بسته‌بندی پیشرفته CoWoS-L شرکت TSMC متکی باشند. Rubin Ultra — که چهار کاشی محاسباتی نزدیک به رتیکل، دو دای I/O و شانزده پشته HBM4E را در خود جای می‌دهد — احتمالاً از یک اینترپوزر عظیم استفاده می‌کند، یا چندین اینترپوزر کوچکتر را ترکیب کرده و آنها را با استفاده از پل‌ها به هم متصل می‌کند.

پردازنده گرافیکی Rubin CPX

برای اولین بار، Vera Rubin NVL144 CPX انویدیا به یک شتاب‌دهنده برای شتاب‌دهنده‌ها مجهز خواهد شد: پردازنده گرافیکی Rubin CPX، که در صورت نیاز توسعه‌دهندگان، برای پلتفرم‌های دیگر نیز در دسترس خواهد بود.

Nvidia Vera Rubin CPX Dual Rack Solution

Rubin CPX یک شتاب‌دهنده استنتاج تخصصی است که برای مدیریت بخش جلویی بارهای کاری LLM با محتوای سنگین، به جای فاز تولید با توان عملیاتی بالا، ساخته شده است. این پردازنده گرافیکی تقریباً 30 پتافلاپس NVFP4 عملکرد را به دست می‌آورد که کمتر از قطعات پرچمدار Rubin است اما به خوبی با بارهای کاری که CPX برای شتاب‌دهی آنها در نظر گرفته شده است، همخوانی دارد.

به جای پشته‌های HBM4 گران‌قیمت و پرمصرف که در پردازنده‌های گرافیکی ‘کامل’ Rubin استفاده می‌شوند، CPX با 128 گیگابایت GDDR7 عرضه می‌شود که ارزان‌تر، خنک‌تر است و به بسته‌بندی پیشرفته نیاز ندارد. این طراحی به CPX یک حافظه بزرگ و مقرون‌به‌صرفه برای دریافت و کدگذاری توالی‌های طولانی — شامل صدها هزار تا میلیون‌ها توکن — و برای مدیریت ورودی‌های چندوجهی مانند ویدئو می‌دهد.

در طرح سیستم NVL144 CPX، CPX در کنار پردازنده‌های گرافیکی استاندارد Rubin و پردازنده Vera اجرا می‌شود تا بارهای کاری خاص پیش‌پر کردن/متن را پردازش کند که نرم‌افزار Dynamo انویدیا به طور خودکار از پردازنده‌های گرافیکی اصلی تخلیه می‌کند. این تقسیم‌بندی هم هزینه‌ها و هم نیازهای برق را برای استنتاج در مقیاس بزرگ کاهش می‌دهد و مراکز داده را قادر می‌سازد تا رک‌های بزرگ را با سخت‌افزار بهینه برای هر مرحله از اجرای مدل مستقر کنند.

DPU BlueField-4

علاوه بر شتاب‌دهنده استنتاج تخصصی برای بارهای کاری هوش مصنوعی پیش‌پر کردن/متن، بسیاری از سیستم‌های NVL144 شامل یک شتاب‌دهنده دیگر، واحد پردازش داده BlueField-4 خواهند بود. BlueField-4 به جای شتاب‌دهی محاسبات هوش مصنوعی، همه چیز را در اطراف پردازنده‌های گرافیکی — ارکستراسیون، شبکه‌سازی، ذخیره‌سازی و امنیت — شتاب می‌دهد و سیستم‌ها را قادر می‌سازد تا بدون تحمیل بار بیش از حد بر CPUها مقیاس‌پذیر شوند.

Nvidia

BlueField-4 یک پردازنده 64 هسته‌ای مبتنی بر Grace، موتورهای تخلیه با عملکرد بالا و یک رابط شبکه 800 گیگابیت بر ثانیه را یکپارچه می‌کند.

از نظر عملکردی، BlueField-4 وظایفی را که معمولاً چرخه‌های CPU را در خوشه‌های عظیم مصرف می‌کنند، تخلیه می‌کند: پردازش بسته، رمزگذاری/رمزگشایی، سوئیچینگ مجازی، مسیریابی، تله‌متری و عملیات ذخیره‌سازی مانند NVMe-over-Fabrics یا کاهش داده. با انجام این عملیات در سخت‌افزار، DPU تأخیر را کاهش می‌دهد، عملکرد را افزایش می‌دهد و تضمین می‌کند که پردازنده‌های گرافیکی در بسیاری از گره‌ها با داده تغذیه می‌شوند. همچنین چارچوب DOCA انویدیا را اجرا می‌کند که میکروسرویس‌هایی برای سیاست‌های امنیتی، جداسازی چند مستأجری، نظارت و مجازی‌سازی فراهم می‌کند.

اتصال مقیاس‌پذیر (Scale-up)

اتصال مقیاس‌پذیر (Scale-up) و مقیاس‌گستر (Scale-out) اجزای حیاتی پلتفرم‌های هوش مصنوعی و HPC انویدیا هستند که مشتریان را قادر می‌سازند تا خوشه‌های هایپراسکیل را بر اساس سخت‌افزار انویدیا با سهولت و نتایج قابل پیش‌بینی بسازند.

انویدیا از فابریک NVLink با سرعت بالا و تأخیر کم برای اتصال مستقیم CPUها (NVLink-C2C) و GPUها استفاده می‌کند، در حالی که NVSwitch این فابریک را در تمام شتاب‌دهنده‌های یک رک گسترش می‌دهد. با نسل Rubin در سال 2026، NVLink 6.0 قرار است توان عملیاتی هر لینک خود را دو برابر کرده و به حدود 3.6 ترابایت بر ثانیه در مجموع (1.8 ترابایت بر ثانیه در هر جهت) برساند، اگرچه مشخص نیست که این افزایش از سیگنالینگ سریع‌تر یا لینک‌های پهن‌تر ناشی می‌شود. هنگامی که با NVSwitch 6.0 در سیستم‌هایی مانند NVL144 جفت شود، فابریک کامل می‌تواند تقریباً 28.8 ترابایت بر ثانیه پهنای باند تجمعی GPU به GPU را ارائه دهد.

نسخه به‌روزرسانی Rubin Ultra در سال 2027 به NVLink 7.0 و NVSwitch 7.0 منتقل خواهد شد، با حفظ همان پهنای باند دوطرفه در هر لینک، اما احتمالاً تعداد پورت‌ها را به حدود 144 در هر سوئیچ افزایش می‌دهد. این ظرفیت سوئیچینگ گسترش‌یافته همان چیزی است که به انویدیا امکان می‌دهد پردازنده‌های گرافیکی بزرگتر Rubin Ultra چهار چیپلت را با پهنای باند کامل در سراسر یک رک به هم متصل کند و اندازه دنیای مقیاس‌پذیری خود را به 144 بسته GPU افزایش دهد.

اتصال مقیاس‌گستر (Scale-out)

برای اتصال مقیاس‌گستر، انویدیا پلتفرم‌های اتصال نوری با بسته‌بندی مشترک (CPO) — شامل کارت‌های شبکه و سیلیکون سوئیچینگ — را برای فناوری‌های اترنت (Spectrum-X) و InfiniBand (Quantum-X) در پلتفرم نسل Rubin و نسخه‌های بعدی خود معرفی خواهد کرد.

Nvidia

در سطح بالا، هر دو پلتفرم اترنت فوتونیک Spectrum-X و InfiniBand فوتونیک Quantum-X انویدیا بر اساس پلتفرم COUPE نسل اول TSMC هستند که یک مدار مجتمع الکترونیکی (EIC) 65 نانومتری را با یک مدار مجتمع فوتونیک (PIC) یکپارچه می‌کند و تا 1.6 ترابایت بر ثانیه در هر پورت ارائه می‌دهد.

عرضه فوتونیک انویدیا با سوئیچ‌های InfiniBand Quantum-X آغاز می‌شود که قرار است در اوایل سال 2026 عرضه شوند و هدفشان ارائه 115 ترابیت بر ثانیه پهنای باند فابریک از طریق 144 لاین با سرعت 800 گیگابیت بر ثانیه، یا در نهایت 576 لاین با سرعت 200 گیگابیت بر ثانیه است. این پلتفرم‌ها شامل یک ASIC پردازشی یکپارچه با قابلیت 14.4 ترافلاپس برای شتاب‌دهی عملیات درون شبکه از طریق پروتکل SHARP v4 انویدیا برای کاهش تأخیر عملیات جمعی هستند. تمام واحدهای Quantum-X با خنک‌کننده مایع برای مدیریت بار حرارتی خود طراحی شده‌اند.

در بخش اترنت، Spectrum-X سوئیچ‌هایی را در گزینه‌های چگالی پورت متعدد عرضه خواهد کرد: 128×800 گیگابیت بر ثانیه یا 512×200 گیگابیت بر ثانیه، که هر دو حدود 100 ترابیت بر ثانیه توان عملیاتی تجمعی ارائه می‌دهند. یک مدل بزرگتر ظرفیت را به 512×800 گیگابیت بر ثانیه یا 2,048×200 گیگابیت بر ثانیه افزایش می‌دهد و در مجموع به 400 ترابیت بر ثانیه می‌رسد.

Nvidia

در رویداد اخیر GTC در اکتبر، انویدیا ConnectX-9 Spectrum-X SuperNIC را معرفی کرد، یک رابط شبکه نسل بعدی 1.6 ترابیت بر ثانیه که به طور خاص برای خوشه‌های هوش مصنوعی در مقیاس بزرگ ساخته شده است. این واحد شامل SerDes با پهنای باند فوق‌العاده بالا، یک سوئیچ PCIe 6.0 با 48 لاین و قابلیت‌های RDMA کاملاً قابل برنامه‌ریزی است تا به پردازنده‌های گرافیکی مسیری مستقیم و با تأخیر کم به فابریک‌های اترنت Spectrum-X و InfiniBand Quantum-X بدهد. این کارت برای فعال کردن انتقال داده GPU به شبکه بدون کپی (از طریق GPUDirect Async و NIXL) و کاهش قابل توجه دخالت CPU در بارهای کاری استنتاج و آموزش چند گره‌ای طراحی شده است.

از نظر معماری، ConnectX-9 نقطه پایانی است که رک‌های متصل به NVLink، مانند NVL144 یا NVL576، را به شبکه‌های مقیاس‌گستر فعال شده با فوتونیک متصل می‌کند و سیستم‌های کلاس Rubin و Rubin Ultra را قادر می‌سازد تا پهنای باند عظیم مورد نیاز برای خوشه‌های هوش مصنوعی چند رک را حفظ کنند. همچنین شامل یک پلتفرم امن داخلی برای جداسازی و تله‌متری است و پایه‌ای برای پیکربندی‌های با چگالی بالا تا صدها NIC در هر رک خوشه فراهم می‌کند که احتمالاً با سیستم‌های NVL144 و NVL576 رایج خواهد شد.

ما این صفحه را با کسب اطلاعات بیشتر در مورد معماری آتی Rubin انویدیا به‌روزرسانی خواهیم کرد.

Google Preferred Source

ما را در Google News دنبال کنید، یا ما را به عنوان منبع ترجیحی خود اضافه کنید، تا آخرین اخبار، تحلیل‌ها و بررسی‌های ما را در فیدهای خود دریافت کنید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

جستجو در سایت

سبد خرید

درحال بارگذاری ...
بستن
مقایسه
مقایسه محصولات
لیست مقایسه محصولات شما خالی می باشد!