مایکروسافت اولین کلاستر Azure GB300 NVL72 در مقیاس «ابرکامپیوتری» جهان را راهاندازی میکند
مایکروسافت پلتفرم ابری Azure خود را به تازگی ارتقا داده است و با استفاده از Blackwell Ultra انویدیا، آنچه را که اولین کلاستر ابرکامپیوتری در مقیاس بزرگ GB300 NVL72 جهان مینامد، راهاندازی کرده است. این کلاستر شامل چندین رک است که دقیقاً 4,608 پردازنده گرافیکی GB300 را در خود جای داده و توسط سوییچ فابریک NVLink 5 به هم متصل شدهاند، که سپس از طریق فابریک شبکه InfiniBand Quantum-X800 انویدیا در سراسر کلاستر به هم متصل میشوند. این امکان را فراهم میکند که یک رک NVL72 پهنای باند حافظه کلی 130 ترابایت بر ثانیه داشته باشد، و هر رک 800 گیگابیت بر ثانیه پهنای باند اتصال داخلی برای هر پردازنده گرافیکی فراهم کند.
عدد 4,608، که توسط انویدیا مشخص شده است، نشاندهنده 64 سیستم GB300 NVL72 در حال کار است، با در نظر گرفتن اینکه هر رک دارای 72 پردازنده گرافیکی Blackwell و 36 پردازنده مرکزی Grace (در مجموع 2,592 هسته Arm) است. این از نظر فنی آن را بسیار عقبتر از یک توسعه کامل در مقیاس هایپرسکیل قرار میدهد، اما همچنان یک نقطه عطف مهم برای Grace Blackwell GB300 انویدیا محسوب میشود، که اخیراً رکوردهای جدیدی را در عملکرد استنتاج به ثبت رسانده است. مایکروسافت میگوید این کلاستر به بارهای کاری OpenAI اختصاص خواهد یافت و به مدلهای استنتاج پیشرفته اجازه میدهد حتی سریعتر اجرا شوند و آموزش مدل را در «هفتهها به جای ماهها» امکانپذیر میسازد.
در سطح رک، هر سیستم NVL72 گفته میشود که 1,440 پتافلاپس عملکرد Tensor FP4 را ارائه میدهد، که توسط 37 ترابایت «حافظه سریع» یکپارچه تامین میشود، که به 20 ترابایت HBM3E برای پردازنده گرافیکی و 17 ترابایت LPDDR5X برای پردازنده مرکزی Grace تقسیم میشود. همانطور که قبلاً ذکر شد، این حافظه با استفاده از NVLink 5 به هم متصل شده تا هر رک به عنوان یک شتابدهنده واحد و یکپارچه با قابلیت 130 ترابایت بر ثانیه پهنای باند مستقیم کار کند. توان عملیاتی حافظه یکی از چشمگیرترین بخشهای GB300 NVL72 است، بنابراین درک نحوه عملکرد آن مهم است.
پلتفرم InfiniBand Quantum-X800 به هر یک از 4,608 پردازنده گرافیکی متصل داخلی اجازه میدهد تا پهنای باند 800 گیگابیت بر ثانیه در سطح رک به رک داشته باشند. در نهایت، هر پردازنده گرافیکی، در سراسر رکها و درون آنها، به هم متصل میشود.
کلاستر GB300 NVL72 با مایع خنک میشود و از مبدلهای حرارتی مستقل و حلقههای تاسیساتی استفاده میکند که برای به حداقل رساندن مصرف آب تحت بارهای کاری شدید طراحی شدهاند. انویدیا میگوید مایکروسافت نیاز داشت تا هر لایه از مرکز داده خود را برای این استقرار بازطراحی کند، و مایکروسافت با خوشحالی اشاره میکند که این تنها اولین از بسیاری از کلاسترهای آینده است که GB300 را در سراسر جهان گسترش خواهد داد و آن را به پتانسیل کامل هایپرسکیل میرساند. OpenAI و مایکروسافت قبلاً از کلاسترهای GB200 استفاده میکنند برای آموزش مدلها، بنابراین این به عنوان یک گسترش طبیعی از مشارکت انحصاری آنها عمل میکند.
خود انویدیا به شدت در OpenAI سرمایهگذاری کرده است، با هر دو اخیراً یک نامه قصد (LoI) امضا کردهاند برای یک مشارکت استراتژیک بزرگ که طی آن سازنده تراشه 100 میلیارد دلار به تدریج به OpenAI تزریق خواهد کرد. از سوی دیگر، OpenAI از پردازندههای گرافیکی انویدیا برای زیرساخت هوش مصنوعی نسل بعدی خود استفاده خواهد کرد و حداقل 10 گیگاوات (GW) شتابدهنده را با شروع از Vera Rubin در سال آینده مستقر خواهد کرد. بنابراین، این ابرکلاستر GB300 NVL72 را میتوان به عنوان یک پیشساز در نظر گرفت، که تقریباً آن سرمایهگذاری را محقق میکند، زیرا مایکروسافت است که کلاستر را برای OpenAI با استفاده از سختافزار انویدیا مستقر میکند.

- کولبات
- مهر 19, 1404
- 48 بازدید






