پلتفرم ورا روبین انویدیا در عمق
در حالی که انویدیا میلیونها پردازنده Grace و پردازنده گرافیکی هوش مصنوعی Blackwell را به مراکز داده در سراسر جهان ارسال میکند، این شرکت سخت در تلاش است تا پلتفرم هوش مصنوعی و HPC نسل بعدی خود، ورا روبین، را راهاندازی کند که انتظار میرود استاندارد جدیدی برای عملکرد و کارایی تعیین کند. ورا روبین انویدیا نه یک یا دو، بلکه شامل نُه پردازنده جداگانه است که هر یک برای یک بار کاری خاص طراحی شدهاند و یکی از پیچیدهترین پلتفرمهای مرکز داده را تا کنون ایجاد کردهاند.
در حالی که انویدیا جزئیات بیشتری را در مورد ورا روبین خود در طول سال آینده و پیش از عرضه رسمی آن در اواخر سال 2025 فاش خواهد کرد، بیایید آنچه را که قبلاً در مورد این پلتفرم میدانیم، مرور کنیم، زیرا این شرکت جزئیات قابل توجهی را فاش کرده است.
در یک نگاه
در بخش سختافزار، پلتفرم ورا روبین انویدیا، معماری محاسباتی هوش مصنوعی در مقیاس رک نسل بعدی آن است که حول مجموعهای از اجزای به شدت یکپارچه ساخته شده است. این اجزا شامل موارد زیر هستند: یک پردازنده Vera با 88 هسته، پردازنده گرافیکی Rubin با 288 گیگابایت حافظه HBM4، پردازنده گرافیکی Rubin CPX با 128 گیگابایت GDDR7، سوئیچ ASIC NVLink 6.0 برای اتصال در مقیاس رک، DPU BlueField-4 با SSD یکپارچه برای ذخیره کش کلید-مقدار، اترنت فوتونیک Spectrum-6 و NICهای InfiniBand فوتونیک Quantum-CX9 با سرعت 1.6 ترابیت بر ثانیه، و همچنین سیلیکون سوئیچینگ اترنت فوتونیک Spectrum-X و InfiniBand فوتونیک Quantum-CX9 برای اتصال در مقیاس گسترده.
یک رک کامل NVL144، تعداد 144 پردازنده گرافیکی Rubin (در 72 بسته) را با 20,736 ترابایت حافظه HBM4 و 36 پردازنده Vera یکپارچه میکند تا حداکثر 3.6 اگزافلاپس NVFP4 برای استنتاج و حداکثر 1.2 اگزافلاپس FP8 برای عملکرد آموزش ارائه دهد. در مقابل، NVL144 CPX با استفاده از شتابدهندههای Rubin CPX تقریباً 8 اگزافلاپس NVFP4 برای استنتاج به دست میآورد که چگالی محاسباتی بسیار بیشتری را فراهم میکند.
در بخش نرمافزار، نسل Rubin برای دقت FP4/FP6، استنتاج با میلیونها توکن و بارهای کاری مولد چندوجهی بهینهسازی شده است. سیستمهای CPX با ارکستراتور استنتاج Dynamo انویدیا که بر پایه CUDA 13 ساخته شده است، عرضه خواهند شد. این ارکستراتور برای مدیریت هوشمندانه و تقسیم بارهای کاری استنتاج در انواع مختلف پردازندههای گرافیکی در یک سیستم غیرمتمرکز طراحی شده است.
علاوه بر این، Smart Router و GPU Planner انویدیا به صورت پویا بارهای کاری پیشپر کردن و رمزگشایی را در میان نمونههای Mixture-of-Experts (MoE) متعادل میکنند تا بهرهوری و زمان پاسخ را بهبود بخشند. همچنین، لایه توسعه اتصال داخلی (NIXL) انویدیا انتقال داده بدون کپی را بین پردازندههای گرافیکی و NICها از طریق InfiniBand GPUDirect Async (IBGDA) امکانپذیر میسازد تا تأخیر و سربار CPU را کاهش دهد. در همین حال، گفته میشود که تخلیه کش کلید-مقدار NVMe به نرخ موفقیت 50% تا 60% دست مییابد و امکان حفظ کارآمد زمینه مکالمه چند مرحلهای را فراهم میکند. در نهایت، انتظار میرود کتابخانه جدید NCCL 2.24 تأخیر پیامهای کوچک را 4 برابر کاهش دهد و امکان مقیاسبندی مدلهای هوش مصنوعی عامل با تریلیونها پارامتر را با ارتباطات بین پردازنده گرافیکی بسیار سریعتر فراهم کند.
صادقانه بگوییم، این ویژگیها مختص پلتفرم ورا روبین نیستند، اما سیستمهای کلاس Rubin بیشترین بهره را از آنها میبرند، زیرا این پلتفرم به طور خاص برای بهرهبرداری از آنها در مقیاس بزرگ طراحی شده است. اما چه چیزی در مورد پلتفرم ورا روبین خاص است؟ بیایید کمی عمیقتر بررسی کنیم.
پردازنده Vera
پلتفرمهای Vera Rubin NVL144 و Rubin Ultra 576 انویدیا از پردازندههای سفارشی Vera انویدیا استفاده میکنند که به طور خاص برای زیرساختهای هوش مصنوعی در سطح مرکز داده طراحی شدهاند و نوید افزایش عملکرد دو برابری را در مقایسه با نسل قبلی، Grace، میدهند.
این پردازنده شامل 88 هسته اختصاصی کلاس Armv9 (که انحرافی از Grace است که از هستههای Arm Neoverse V2 استفاده میکند) با قابلیت چندرشتهای همزمان 2 طرفه است که امکان اجرای همزمان تا 176 رشته را فراهم میکند. این هستههای جدید Arm v9.2، که به صورت داخلی Olympus نامیده میشوند، بر یک خط لوله گسترده خارج از ترتیب (out-of-order) متکی هستند و مجموعهای وسیع از افزونههای اختیاری (SVE2، رمزنگاری، FP8/BF16، برچسبگذاری، RNG، LS64 و غیره) را ارائه میدهند. اسناد انویدیا نشان میدهد که SMT بر عملکرد هر رشته تأثیر میگذارد — به عنوان مثال، اکثر خطوط لوله با فعال بودن دو رشته، توان عملیاتی هر رشته را به نصف کاهش میدهند، به جز چند مورد اختصاصی برای هر رشته، بنابراین توسعهدهندگان باید تصمیم بگیرند که آیا از SMT برای یک بار کاری مشخص استفاده کنند یا یک رشته در هر هسته را حفظ کنند.
انویدیا همچنان از Scalable Coherency Fabric (SCF) خود در داخل پردازنده برای اتصال هستهها و کنترلکنندههای حافظه به یکدیگر استفاده میکند، اما این بار، پهنای باند حافظه پردازنده به 1.2 ترابایت بر ثانیه میرسد که 20% بیشتر از Grace است. در مورد حافظه سیستم، Vera همچنان از LPDDR5X استفاده میکند، اما اکنون برای چگالی بیشتر از ماژولهای SOCAMM2 بهره میبرد.
Vera از NVLink-C2C به عنوان پیوند منسجم CPU به GPU استفاده میکند، همان فناوری Grace-Blackwell، اما با پهنای باند بالاتر. Grace پهنای باند دوطرفه 900 گیگابایت بر ثانیه را ارائه میدهد، اما با پلتفرم ورا روبین، این پهنای باند تقریباً دو برابر شده و به 1.8 ترابایت بر ثانیه در هر CPU میرسد.
تصاویر اخیر منتشر شده از پردازنده Vera نشان میدهد که این پردازنده به نظر نمیرسد دارای طراحی یکپارچه باشد، بلکه طراحی چندچیپلت دارد، زیرا دارای درزهای داخلی قابل مشاهده است. یک تصویر نشان میدهد که پردازنده Vera دارای یک چیپلت I/O متمایز است که در کنار آن قرار دارد. همچنین، تصویر ویژگیهای سبز رنگی را نشان میدهد که از پدهای I/O دای CPU ساطع میشوند؛ هدف آنها ناشناخته است. شاید برخی از قابلیتهای I/O Vera توسط چیپلتهای خارجی زیر CPU فعال میشوند، اما این فقط یک گمانهزنی است.
به صورت عمومی، هنوز شکافهای بزرگی در اطلاعات مربوط به پردازنده Vera انویدیا وجود دارد. هیچ سرعت کلاک رسمی، اندازه کش هر هسته، توپولوژی دقیق L2/L3 یا TDP وجود ندارد. همچنین اطلاعات محدودی در مورد پیکربندیهای NUMA/سوکت خارج از زمینه رک NVL144/NVL576 داریم.
پردازنده گرافیکی Rubin
پردازنده گرافیکی Rubin، بدون شک، قلب (یا قلبها، زیرا دو عدد از آنها در هر برد وجود دارد) پلتفرم ورا روبین انویدیا است. اولین پردازنده گرافیکی Rubin — بیایید آن را R200 بنامیم — دارای دو کاشی محاسباتی تقریباً به اندازه رتیکل است که با فناوری فرآیند 3 نانومتری TSMC تولید شدهاند، یک جفت دای I/O اختصاصی و 288 گیگابایت حافظه HBM4 با سرعت 6.4 گیگاترنسفر بر ثانیه که در هشت پشته چیده شدهاند و تقریباً 13 ترابایت بر ثانیه پهنای باند تجمعی ارائه میدهند. توجه داشته باشید که از R200 به بعد، انویدیا دایهای GPU را به عنوان ‘GPU’ شمارش خواهد کرد، نه بستههای GPU، بنابراین اگرچه پلتفرم NVL144 شامل 72 بسته GPU است، انویدیا اکنون آنها را 144 GPU میبیند.
پردازندههای گرافیکی Rubin برای افزایش بیشتر توان عملیاتی هوش مصنوعی با دقت پایین برای استنتاج و هوش مصنوعی عامل طراحی شدهاند، اما همچنین برای افزایش قابل توجه عملکرد آموزش در مقایسه با Blackwell Ultra، زیرا انویدیا 50 پتافلاپس FP4 و تقریباً 16 پتافلاپس FP8 عملکرد را برای هر پردازنده گرافیکی R200 وعده میدهد که به ترتیب 3.3 و 1.6 برابر بیشتر از Blackwell Ultra است. انویدیا هنوز عملکرد فرمتهای با دقت بالاتر را مشخص نکرده است، اما افزایشهای نسلی قابل توجهی به طور طبیعی پیشبینی میشود.
بهبود عملکرد با یک معاوضه واضح همراه خواهد بود: مصرف برق. راهنماییهای فعلی به حدود 1.8 کیلووات در هر پردازنده گرافیکی اشاره دارد که هم زیرساخت و هم نیازهای خنککننده را برای خوشههای بزرگ افزایش میدهد. با این حال، افزایش 0.4 کیلووات در هر پردازنده گرافیکی در مقایسه با افزایش عملکرد 1.6 تا 3.3 برابری ناچیز به نظر میرسد. پلتفرم Vera Rubin NVL144 انویدیا همچنان از رک Oberon که برای Blackwell/Blackwell Ultra NVL72 استفاده میشد، بهره خواهد برد که به نظر میرسد با تغییرات جزئی در سیستم خنککننده خود، آماده خنک کردن پردازندههای گرافیکی 1.8 کیلوواتی است.
نسخه بهروزرسانی بعدی، معروف به پلتفرم Rubin Ultra، برای سال 2027 هدفگذاری شده است و قصد دارد با انتقال از دو چیپلت محاسباتی به چهار چیپلت، عملکرد را دو برابر کند، که انتظار میرود عملکرد استنتاج FP4 را به حدود 100 پتافلاپس در هر بسته GPU افزایش دهد. ظرفیت حافظه Rubin Ultra نیز به طور چشمگیری گسترش خواهد یافت و به 1 ترابایت HBM4E میرسد که تقریباً 32 ترابایت بر ثانیه پهنای باند ارائه میدهد. پیشبینی میشود چنین پیکربندی 3.6 کیلووات مصرف کند که به یک سیستم خنککننده کاملاً جدید برای بستههای GPU و یک رک Kyber کاملاً جدید نیاز دارد. در واقع، Kyber تعداد 576 پردازنده گرافیکی را در 144 بسته GPU جای خواهد داد و بدین ترتیب اندازه دنیای مقیاسپذیری انویدیا را به طور قابل توجهی گسترش میدهد.
انتظار میرود هر دو Rubin و Rubin Ultra به فناوری بستهبندی پیشرفته CoWoS-L شرکت TSMC متکی باشند. Rubin Ultra — که چهار کاشی محاسباتی نزدیک به رتیکل، دو دای I/O و شانزده پشته HBM4E را در خود جای میدهد — احتمالاً از یک اینترپوزر عظیم استفاده میکند، یا چندین اینترپوزر کوچکتر را ترکیب کرده و آنها را با استفاده از پلها به هم متصل میکند.
پردازنده گرافیکی Rubin CPX
برای اولین بار، Vera Rubin NVL144 CPX انویدیا به یک شتابدهنده برای شتابدهندهها مجهز خواهد شد: پردازنده گرافیکی Rubin CPX، که در صورت نیاز توسعهدهندگان، برای پلتفرمهای دیگر نیز در دسترس خواهد بود.
Rubin CPX یک شتابدهنده استنتاج تخصصی است که برای مدیریت بخش جلویی بارهای کاری LLM با محتوای سنگین، به جای فاز تولید با توان عملیاتی بالا، ساخته شده است. این پردازنده گرافیکی تقریباً 30 پتافلاپس NVFP4 عملکرد را به دست میآورد که کمتر از قطعات پرچمدار Rubin است اما به خوبی با بارهای کاری که CPX برای شتابدهی آنها در نظر گرفته شده است، همخوانی دارد.
به جای پشتههای HBM4 گرانقیمت و پرمصرف که در پردازندههای گرافیکی ‘کامل’ Rubin استفاده میشوند، CPX با 128 گیگابایت GDDR7 عرضه میشود که ارزانتر، خنکتر است و به بستهبندی پیشرفته نیاز ندارد. این طراحی به CPX یک حافظه بزرگ و مقرونبهصرفه برای دریافت و کدگذاری توالیهای طولانی — شامل صدها هزار تا میلیونها توکن — و برای مدیریت ورودیهای چندوجهی مانند ویدئو میدهد.
در طرح سیستم NVL144 CPX، CPX در کنار پردازندههای گرافیکی استاندارد Rubin و پردازنده Vera اجرا میشود تا بارهای کاری خاص پیشپر کردن/متن را پردازش کند که نرمافزار Dynamo انویدیا به طور خودکار از پردازندههای گرافیکی اصلی تخلیه میکند. این تقسیمبندی هم هزینهها و هم نیازهای برق را برای استنتاج در مقیاس بزرگ کاهش میدهد و مراکز داده را قادر میسازد تا رکهای بزرگ را با سختافزار بهینه برای هر مرحله از اجرای مدل مستقر کنند.
DPU BlueField-4
علاوه بر شتابدهنده استنتاج تخصصی برای بارهای کاری هوش مصنوعی پیشپر کردن/متن، بسیاری از سیستمهای NVL144 شامل یک شتابدهنده دیگر، واحد پردازش داده BlueField-4 خواهند بود. BlueField-4 به جای شتابدهی محاسبات هوش مصنوعی، همه چیز را در اطراف پردازندههای گرافیکی — ارکستراسیون، شبکهسازی، ذخیرهسازی و امنیت — شتاب میدهد و سیستمها را قادر میسازد تا بدون تحمیل بار بیش از حد بر CPUها مقیاسپذیر شوند.
BlueField-4 یک پردازنده 64 هستهای مبتنی بر Grace، موتورهای تخلیه با عملکرد بالا و یک رابط شبکه 800 گیگابیت بر ثانیه را یکپارچه میکند.
از نظر عملکردی، BlueField-4 وظایفی را که معمولاً چرخههای CPU را در خوشههای عظیم مصرف میکنند، تخلیه میکند: پردازش بسته، رمزگذاری/رمزگشایی، سوئیچینگ مجازی، مسیریابی، تلهمتری و عملیات ذخیرهسازی مانند NVMe-over-Fabrics یا کاهش داده. با انجام این عملیات در سختافزار، DPU تأخیر را کاهش میدهد، عملکرد را افزایش میدهد و تضمین میکند که پردازندههای گرافیکی در بسیاری از گرهها با داده تغذیه میشوند. همچنین چارچوب DOCA انویدیا را اجرا میکند که میکروسرویسهایی برای سیاستهای امنیتی، جداسازی چند مستأجری، نظارت و مجازیسازی فراهم میکند.
اتصال مقیاسپذیر (Scale-up)
اتصال مقیاسپذیر (Scale-up) و مقیاسگستر (Scale-out) اجزای حیاتی پلتفرمهای هوش مصنوعی و HPC انویدیا هستند که مشتریان را قادر میسازند تا خوشههای هایپراسکیل را بر اساس سختافزار انویدیا با سهولت و نتایج قابل پیشبینی بسازند.
انویدیا از فابریک NVLink با سرعت بالا و تأخیر کم برای اتصال مستقیم CPUها (NVLink-C2C) و GPUها استفاده میکند، در حالی که NVSwitch این فابریک را در تمام شتابدهندههای یک رک گسترش میدهد. با نسل Rubin در سال 2026، NVLink 6.0 قرار است توان عملیاتی هر لینک خود را دو برابر کرده و به حدود 3.6 ترابایت بر ثانیه در مجموع (1.8 ترابایت بر ثانیه در هر جهت) برساند، اگرچه مشخص نیست که این افزایش از سیگنالینگ سریعتر یا لینکهای پهنتر ناشی میشود. هنگامی که با NVSwitch 6.0 در سیستمهایی مانند NVL144 جفت شود، فابریک کامل میتواند تقریباً 28.8 ترابایت بر ثانیه پهنای باند تجمعی GPU به GPU را ارائه دهد.
نسخه بهروزرسانی Rubin Ultra در سال 2027 به NVLink 7.0 و NVSwitch 7.0 منتقل خواهد شد، با حفظ همان پهنای باند دوطرفه در هر لینک، اما احتمالاً تعداد پورتها را به حدود 144 در هر سوئیچ افزایش میدهد. این ظرفیت سوئیچینگ گسترشیافته همان چیزی است که به انویدیا امکان میدهد پردازندههای گرافیکی بزرگتر Rubin Ultra چهار چیپلت را با پهنای باند کامل در سراسر یک رک به هم متصل کند و اندازه دنیای مقیاسپذیری خود را به 144 بسته GPU افزایش دهد.
اتصال مقیاسگستر (Scale-out)
برای اتصال مقیاسگستر، انویدیا پلتفرمهای اتصال نوری با بستهبندی مشترک (CPO) — شامل کارتهای شبکه و سیلیکون سوئیچینگ — را برای فناوریهای اترنت (Spectrum-X) و InfiniBand (Quantum-X) در پلتفرم نسل Rubin و نسخههای بعدی خود معرفی خواهد کرد.
در سطح بالا، هر دو پلتفرم اترنت فوتونیک Spectrum-X و InfiniBand فوتونیک Quantum-X انویدیا بر اساس پلتفرم COUPE نسل اول TSMC هستند که یک مدار مجتمع الکترونیکی (EIC) 65 نانومتری را با یک مدار مجتمع فوتونیک (PIC) یکپارچه میکند و تا 1.6 ترابایت بر ثانیه در هر پورت ارائه میدهد.
عرضه فوتونیک انویدیا با سوئیچهای InfiniBand Quantum-X آغاز میشود که قرار است در اوایل سال 2026 عرضه شوند و هدفشان ارائه 115 ترابیت بر ثانیه پهنای باند فابریک از طریق 144 لاین با سرعت 800 گیگابیت بر ثانیه، یا در نهایت 576 لاین با سرعت 200 گیگابیت بر ثانیه است. این پلتفرمها شامل یک ASIC پردازشی یکپارچه با قابلیت 14.4 ترافلاپس برای شتابدهی عملیات درون شبکه از طریق پروتکل SHARP v4 انویدیا برای کاهش تأخیر عملیات جمعی هستند. تمام واحدهای Quantum-X با خنککننده مایع برای مدیریت بار حرارتی خود طراحی شدهاند.
در بخش اترنت، Spectrum-X سوئیچهایی را در گزینههای چگالی پورت متعدد عرضه خواهد کرد: 128×800 گیگابیت بر ثانیه یا 512×200 گیگابیت بر ثانیه، که هر دو حدود 100 ترابیت بر ثانیه توان عملیاتی تجمعی ارائه میدهند. یک مدل بزرگتر ظرفیت را به 512×800 گیگابیت بر ثانیه یا 2,048×200 گیگابیت بر ثانیه افزایش میدهد و در مجموع به 400 ترابیت بر ثانیه میرسد.
در رویداد اخیر GTC در اکتبر، انویدیا ConnectX-9 Spectrum-X SuperNIC را معرفی کرد، یک رابط شبکه نسل بعدی 1.6 ترابیت بر ثانیه که به طور خاص برای خوشههای هوش مصنوعی در مقیاس بزرگ ساخته شده است. این واحد شامل SerDes با پهنای باند فوقالعاده بالا، یک سوئیچ PCIe 6.0 با 48 لاین و قابلیتهای RDMA کاملاً قابل برنامهریزی است تا به پردازندههای گرافیکی مسیری مستقیم و با تأخیر کم به فابریکهای اترنت Spectrum-X و InfiniBand Quantum-X بدهد. این کارت برای فعال کردن انتقال داده GPU به شبکه بدون کپی (از طریق GPUDirect Async و NIXL) و کاهش قابل توجه دخالت CPU در بارهای کاری استنتاج و آموزش چند گرهای طراحی شده است.
از نظر معماری، ConnectX-9 نقطه پایانی است که رکهای متصل به NVLink، مانند NVL144 یا NVL576، را به شبکههای مقیاسگستر فعال شده با فوتونیک متصل میکند و سیستمهای کلاس Rubin و Rubin Ultra را قادر میسازد تا پهنای باند عظیم مورد نیاز برای خوشههای هوش مصنوعی چند رک را حفظ کنند. همچنین شامل یک پلتفرم امن داخلی برای جداسازی و تلهمتری است و پایهای برای پیکربندیهای با چگالی بالا تا صدها NIC در هر رک خوشه فراهم میکند که احتمالاً با سیستمهای NVL144 و NVL576 رایج خواهد شد.
ما این صفحه را با کسب اطلاعات بیشتر در مورد معماری آتی Rubin انویدیا بهروزرسانی خواهیم کرد.
ما را در Google News دنبال کنید، یا ما را به عنوان منبع ترجیحی خود اضافه کنید، تا آخرین اخبار، تحلیلها و بررسیهای ما را در فیدهای خود دریافت کنید.
- کولبات
- آبان 26, 1404
- 60 بازدید






