Microsoft deploys world's first 'supercomputer-scale' GB300 NVL72 Azure cluster — 4,608 GB300 GPUs linked together to form a single, unified accelerator capable of 92.1 exaFLOPS of FP4 inference | Tom's Hardware

مایکروسافت اولین کلاستر Azure GB300 NVL72 در مقیاس «ابرکامپیوتری» جهان را راه‌اندازی می‌کند

مایکروسافت پلتفرم ابری Azure خود را به تازگی ارتقا داده است و با استفاده از Blackwell Ultra انویدیا، آنچه را که اولین کلاستر ابرکامپیوتری در مقیاس بزرگ GB300 NVL72 جهان می‌نامد، راه‌اندازی کرده است. این کلاستر شامل چندین رک است که دقیقاً 4,608 پردازنده گرافیکی GB300 را در خود جای داده و توسط سوییچ فابریک NVLink 5 به هم متصل شده‌اند، که سپس از طریق فابریک شبکه InfiniBand Quantum-X800 انویدیا در سراسر کلاستر به هم متصل می‌شوند. این امکان را فراهم می‌کند که یک رک NVL72 پهنای باند حافظه کلی 130 ترابایت بر ثانیه داشته باشد، و هر رک 800 گیگابیت بر ثانیه پهنای باند اتصال داخلی برای هر پردازنده گرافیکی فراهم کند.

عدد 4,608، که توسط انویدیا مشخص شده است، نشان‌دهنده 64 سیستم GB300 NVL72 در حال کار است، با در نظر گرفتن اینکه هر رک دارای 72 پردازنده گرافیکی Blackwell و 36 پردازنده مرکزی Grace (در مجموع 2,592 هسته Arm) است. این از نظر فنی آن را بسیار عقب‌تر از یک توسعه کامل در مقیاس هایپرسکیل قرار می‌دهد، اما همچنان یک نقطه عطف مهم برای Grace Blackwell GB300 انویدیا محسوب می‌شود، که اخیراً رکوردهای جدیدی را در عملکرد استنتاج به ثبت رسانده است. مایکروسافت می‌گوید این کلاستر به بارهای کاری OpenAI اختصاص خواهد یافت و به مدل‌های استنتاج پیشرفته اجازه می‌دهد حتی سریع‌تر اجرا شوند و آموزش مدل را در «هفته‌ها به جای ماه‌ها» امکان‌پذیر می‌سازد.

در سطح رک، هر سیستم NVL72 گفته می‌شود که 1,440 پتافلاپس عملکرد Tensor FP4 را ارائه می‌دهد، که توسط 37 ترابایت «حافظه سریع» یکپارچه تامین می‌شود، که به 20 ترابایت HBM3E برای پردازنده گرافیکی و 17 ترابایت LPDDR5X برای پردازنده مرکزی Grace تقسیم می‌شود. همانطور که قبلاً ذکر شد، این حافظه با استفاده از NVLink 5 به هم متصل شده تا هر رک به عنوان یک شتاب‌دهنده واحد و یکپارچه با قابلیت 130 ترابایت بر ثانیه پهنای باند مستقیم کار کند. توان عملیاتی حافظه یکی از چشمگیرترین بخش‌های GB300 NVL72 است، بنابراین درک نحوه عملکرد آن مهم است.

پلتفرم InfiniBand Quantum-X800 به هر یک از 4,608 پردازنده گرافیکی متصل داخلی اجازه می‌دهد تا پهنای باند 800 گیگابیت بر ثانیه در سطح رک به رک داشته باشند. در نهایت، هر پردازنده گرافیکی، در سراسر رک‌ها و درون آنها، به هم متصل می‌شود.

کلاستر GB300 NVL72 با مایع خنک می‌شود و از مبدل‌های حرارتی مستقل و حلقه‌های تاسیساتی استفاده می‌کند که برای به حداقل رساندن مصرف آب تحت بارهای کاری شدید طراحی شده‌اند. انویدیا می‌گوید مایکروسافت نیاز داشت تا هر لایه از مرکز داده خود را برای این استقرار بازطراحی کند، و مایکروسافت با خوشحالی اشاره می‌کند که این تنها اولین از بسیاری از کلاسترهای آینده است که GB300 را در سراسر جهان گسترش خواهد داد و آن را به پتانسیل کامل هایپرسکیل می‌رساند. OpenAI و مایکروسافت قبلاً از کلاسترهای GB200 استفاده می‌کنند برای آموزش مدل‌ها، بنابراین این به عنوان یک گسترش طبیعی از مشارکت انحصاری آنها عمل می‌کند.

خود انویدیا به شدت در OpenAI سرمایه‌گذاری کرده است، با هر دو اخیراً یک نامه قصد (LoI) امضا کرده‌اند برای یک مشارکت استراتژیک بزرگ که طی آن سازنده تراشه 100 میلیارد دلار به تدریج به OpenAI تزریق خواهد کرد. از سوی دیگر، OpenAI از پردازنده‌های گرافیکی انویدیا برای زیرساخت هوش مصنوعی نسل بعدی خود استفاده خواهد کرد و حداقل 10 گیگاوات (GW) شتاب‌دهنده را با شروع از Vera Rubin در سال آینده مستقر خواهد کرد. بنابراین، این ابرکلاستر GB300 NVL72 را می‌توان به عنوان یک پیش‌ساز در نظر گرفت، که تقریباً آن سرمایه‌گذاری را محقق می‌کند، زیرا مایکروسافت است که کلاستر را برای OpenAI با استفاده از سخت‌افزار انویدیا مستقر می‌کند.