Nvidia launches Vera Rubin NVL72 AI supercomputer at CES — promises up to 5x greater inference performance and 10x lower cost per token than Blackwell, coming 2H 2026 | Tom's Hardware

انویدیا سوپرکامپیوتر هوش مصنوعی Vera Rubin NVL72 را در CES معرفی کرد

هوش مصنوعی در همه جای CES 2026 حضور دارد و پردازنده‌های گرافیکی انویدیا در مرکز جهان رو به گسترش هوش مصنوعی قرار دارند. امروز، در طول سخنرانی اصلی خود در CES، مدیرعامل جنسن هوانگ برنامه‌های شرکت را برای چگونگی باقی ماندن در خط مقدم انقلاب هوش مصنوعی به اشتراک گذاشت، زیرا این فناوری فراتر از چت‌بات‌ها به رباتیک، وسایل نقلیه خودران و دنیای فیزیکی گسترده‌تر می‌رسد.

ابتدا، هوانگ به طور رسمی Vera Rubin را معرفی کرد، معماری نسل بعدی مرکز داده هوش مصنوعی در مقیاس رک انویدیا. روبین نتیجه چیزی است که شرکت آن را “طراحی مشترک افراطی” در شش نوع تراشه می‌نامد: پردازنده مرکزی Vera، پردازنده گرافیکی Rubin، سوئیچ NVLink 6، سوپرنیک ConnectX-9، واحد پردازش داده BlueField-4 و سوئیچ اترنت Spectrum-6. این بلوک‌های ساختمانی همگی با هم ترکیب می‌شوند تا رک Vera Rubin NVL72 را ایجاد کنند.

تقاضا برای محاسبات هوش مصنوعی سیری‌ناپذیر است و هر پردازنده گرافیکی Rubin وعده عملکرد بسیار بیشتری را برای این نسل می‌دهد: 50 پتافلاپس عملکرد استنتاجی با نوع داده NVFP4، 5 برابر بیشتر از Blackwell GB200، و 35 پتافلاپس عملکرد آموزشی NVFP4، 3.5 برابر بیشتر از Blackwell. برای تغذیه این منابع محاسباتی، هر بسته پردازنده گرافیکی Rubin دارای هشت پشته حافظه HBM4 است که 288 گیگابایت ظرفیت و 22 ترابایت بر ثانیه پهنای باند ارائه می‌دهد.

محاسبات به ازای هر پردازنده گرافیکی تنها یک بلوک ساختمانی در مرکز داده هوش مصنوعی است. همانطور که مدل‌های زبان بزرگ پیشرو از معماری‌های متراکم که هر پارامتر را برای تولید یک توکن خروجی فعال می‌کنند، به معماری‌های ترکیب متخصصان (MoE) که تنها بخشی از پارامترهای موجود را به ازای هر توکن فعال می‌کنند، تغییر کرده‌اند، مقیاس‌بندی این مدل‌ها به طور نسبی کارآمدتر شده است. با این حال، ارتباط بین این متخصصان در داخل مدل‌ها به مقادیر زیادی پهنای باند بین گره‌ای نیاز دارد.

Vera Rubin، NVLink 6 را برای شبکه‌سازی مقیاس‌پذیر معرفی می‌کند که پهنای باند فابریک به ازای هر پردازنده گرافیکی را به 3.6 ترابایت بر ثانیه (دو طرفه) افزایش می‌دهد. هر سوئیچ NVLink 6 دارای 28 ترابایت بر ثانیه پهنای باند است و هر رک Vera Rubin NVL72 دارای نه عدد از این سوئیچ‌ها برای مجموع 260 ترابایت بر ثانیه پهنای باند مقیاس‌پذیر است.

پردازنده مرکزی Nvidia Vera، 88 هسته سفارشی Olympus Arm را با آنچه انویدیا “چند رشته‌ای فضایی” می‌نامد، پیاده‌سازی می‌کند که تا 176 رشته را به طور همزمان اجرا می‌کند. اتصال NVLink C2C که برای اتصال منسجم پردازنده مرکزی Vera به پردازنده‌های گرافیکی Rubin استفاده می‌شود، پهنای باند خود را دو برابر کرده و به 1.8 ترابایت بر ثانیه رسیده است. هر پردازنده مرکزی Vera می‌تواند تا 1.5 ترابایت حافظه SOCAMM LPDDR5X را با پهنای باند حافظه تا 1.2 ترابایت بر ثانیه آدرس‌دهی کند.

برای مقیاس‌بندی رک‌های Vera Rubin NVL72 به DGX SuperPods متشکل از هشت رک، انویدیا یک جفت سوئیچ اترنت Spectrum-X با اپتیک‌های هم‌بسته‌بندی شده را معرفی می‌کند که همگی از تراشه Spectrum-6 آن ساخته شده‌اند. هر تراشه Spectrum-6 پهنای باند 102.4 ترابیت بر ثانیه را ارائه می‌دهد و انویدیا آن را در دو سوئیچ عرضه می‌کند.

SN688 دارای پهنای باند 409.6 ترابیت بر ثانیه برای 512 پورت اترنت 800G یا 2048 پورت 200G است. SN6810 پهنای باند 102.4 ترابیت بر ثانیه را ارائه می‌دهد که می‌تواند به 128 پورت 800G یا 512 پورت 200G اترنت هدایت شود. هر دو این سوئیچ‌ها با مایع خنک می‌شوند و انویدیا ادعا می‌کند که آنها کارآمدتر از نظر مصرف انرژی، قابل اعتمادتر و با زمان کارکرد بهتری هستند، احتمالاً در مقایسه با سخت‌افزاری که فوتونیک سیلیکونی ندارد.

با افزایش پنجره‌های متنی به میلیون‌ها توکن، انویدیا می‌گوید که عملیات بر روی حافظه نهان کلید-مقدار که تاریخچه تعاملات با یک مدل هوش مصنوعی را نگه می‌دارد، به گلوگاه عملکرد استنتاجی تبدیل می‌شود. برای عبور از این گلوگاه، انویدیا از DPUهای نسل بعدی BlueField 4 خود برای ایجاد آنچه “لایه جدیدی از حافظه” می‌نامد، استفاده می‌کند: پلتفرم ذخیره‌سازی حافظه متنی استنتاجی (Inference Context Memory Storage Platform).

این شرکت می‌گوید که این لایه ذخیره‌سازی برای فعال کردن اشتراک‌گذاری و استفاده مجدد کارآمد از داده‌های حافظه نهان کلید-مقدار در سراسر زیرساخت هوش مصنوعی طراحی شده است که منجر به پاسخگویی و توان عملیاتی بهتر و مقیاس‌بندی قابل پیش‌بینی و کم‌مصرف معماری‌های هوش مصنوعی عامل‌محور می‌شود.

برای اولین بار، Vera Rubin همچنین محیط اجرای قابل اعتماد انویدیا را با ایمن‌سازی در سطح تراشه، فابریک و شبکه به کل رک گسترش می‌دهد، که انویدیا می‌گوید برای تضمین محرمانگی و امنیت مدل‌های پیشرفته و ارزشمند آزمایشگاه‌های پیشرو هوش مصنوعی حیاتی است.

در مجموع، هر رک Vera Rubin NVL72، 3.6 اگزافلاپس عملکرد استنتاجی NVFP4، 2.5 اگزافلاپس عملکرد آموزشی NVFP4، 54 ترابایت حافظه LPDDR5X متصل به پردازنده‌های مرکزی Vera، و 20.7 ترابایت HBM4 با پهنای باند 1.6 پتابایت بر ثانیه ارائه می‌دهد.

برای حفظ بهره‌وری این رک‌ها، انویدیا چندین بهبود در قابلیت اطمینان، در دسترس بودن و قابلیت سرویس‌دهی (RAS) در سطح رک را برجسته کرد، از جمله طراحی سینی ماژولار بدون کابل که امکان تعویض سریع‌تر قطعات را نسبت به رک‌های NVL72 قبلی فراهم می‌کند، افزایش انعطاف‌پذیری NVLink که امکان نگهداری بدون توقف را می‌دهد، و موتور RAS نسل دوم که امکان بررسی‌های سلامت بدون توقف را فراهم می‌کند.

تمام این قدرت محاسباتی و پهنای باند خام در ظاهر چشمگیر است، اما تصویر کلی هزینه مالکیت احتمالاً برای شرکای انویدیا که در حال بررسی سرمایه‌گذاری‌های عظیم در ظرفیت‌های آینده هستند، از اهمیت بیشتری برخوردار است. انویدیا می‌گوید با Vera Rubin، تنها 1/4 تعداد پردازنده‌های گرافیکی برای آموزش مدل‌های MoE نسبت به Blackwell نیاز است، و روبین می‌تواند هزینه به ازای هر توکن برای استنتاج MoE را تا 10 برابر در طیف وسیعی از مدل‌ها کاهش دهد. اگر این ارقام را معکوس کنیم، نشان می‌دهد که روبین می‌تواند توان عملیاتی آموزش را نیز افزایش داده و توکن‌های بسیار بیشتری را در همان فضای رک ارائه دهد.

انویدیا می‌گوید که هر شش تراشه مورد نیاز برای ساخت سیستم‌های Vera Rubin NVL72 را از کارخانه‌ها دریافت کرده و از عملکرد بارهای کاری که روی آنها اجرا می‌کند، راضی است. این شرکت انتظار دارد که تولید انبوه سیستم‌های Vera Rubin NVL72 را در نیمه دوم سال 2026 آغاز کند، که با پیش‌بینی‌های قبلی آن در مورد در دسترس بودن روبین مطابقت دارد.