Immersion Cooling for data centers: An exotic inevitability? | Tom's HardwareTom's Hardware

خنک‌سازی غوطه‌وری برای مراکز داده: یک اجتناب‌ناپذیری عجیب؟

مراکز داده مدرن (DCs) از انواع مختلف سیستم‌های خنک‌کننده استفاده می‌کنند. اکثر مراکز داده امروزی همچنان از خنک‌سازی با هوا به عنوان پایه استفاده می‌کنند، به طوری که هوای خنک در قفسه‌ها به گردش درآمده و هوای گرم خارج می‌شود، اما این روش با CPUها و GPUهای پرقدرت مدرن مشکل دارد. با شروع از Hopper انویدیا و گسترش با Blackwell، اپراتورها به سمت خنک‌سازی مایع، به ویژه راه‌حل‌های صفحه سرد و مستقیم به تراشه، حرکت می‌کنند که می‌توانند با زیرساخت‌های خنک‌سازی هوای موجود یکپارچه شوند.

با این حال، در حالی که سیستم‌های پیشرفته‌تری مانند خنک‌سازی غوطه‌وری وجود دارند، با وجود ادعاهایی مبنی بر مزایای چشمگیر در چگالی عملکرد، هزینه کلی و کارایی، پذیرش محدودی دارند. اما، با توجه به اینکه نسل‌های بعدی شتاب‌دهنده‌های هوش مصنوعی قرار است مصرف برق را افزایش دهند، خنک‌سازی غوطه‌وری ممکن است طی سه یا چهار سال آینده اجتناب‌ناپذیر شود. اما آیا صنعت آماده است؟

مراکز داده در حال گرم‌تر شدن هستند

مراکز داده هوش مصنوعی با استفاده از ترکیبی از جریان هوا، گردش مایع و سیستم‌های تبادل حرارت که بار حرارتی را به خارج از تاسیسات منتقل می‌کنند، گرما را دفع می‌کنند. اصل اساسی این است که گرما را از تراشه‌های داغ (CPU، GPU، سوئیچ‌ها) به یک محیط — هوا، آب یا یک مایع دی‌الکتریک (مانند گلیکول آب) — منتقل کرده و سپس آن گرما را به برج‌های خنک‌کننده، چیلرها یا واحدهای تبخیری که در آنجا به اتمسفر آزاد می‌شود، منتقل کنند.

انویدیا انویدیا DGX انویدیا DGX گوگل

در مراکز داده با خنک‌سازی هوا، سرورها هوای خروجی گرم را به محفظه‌های برگشت سیستم‌های تهویه مطبوع (HVAC) می‌فرستند که سپس توسط چیلرها یا برج‌های خنک‌کننده تبخیری خنک شده و دوباره به گردش در می‌آید. این روش ارزان و آسان برای پیاده‌سازی است، اما برای مراکز داده هوش مصنوعی که از سخت‌افزارهای پرمصرف مانند GPUهای Blackwell انویدیا (که از پرمصرف‌ترین پردازنده‌های صنعت هستند) استفاده می‌کنند، کافی نیست.

در سیستم‌های خنک‌سازی مایع، گرما توسط مایع خنک‌کننده در گردش جذب می‌شود که به یک مبدل حرارتی جریان می‌یابد. سپس گرما یا به حلقه‌های آب تاسیسات و برج‌های خنک‌کننده دفع می‌شود یا تا حدی از طریق خنک‌سازی تبخیری دفع شده و سپس به خارج از محوطه تخلیه می‌شود. در این حالت، خنک‌سازی مایع امکان حذف بخش عمده بار حرارتی (مثلاً 80% – 85%) را فراهم می‌کند، در حالی که گرمای باقیمانده همچنان توسط خنک‌سازی هوای سنتی مدیریت می‌شود.

در حال حاضر، انویدیا برای GPUهای مرکز داده Blackwell، استفاده از خنک‌سازی مستقیم به تراشه (D2C) را توصیه می‌کند، که در آن یک صفحه سرد با مایع در حال گردش به پردازنده متصل می‌شود. این روش معمولاً می‌تواند در ترکیب با زیرساخت‌های خنک‌سازی هوای موجود و خنک‌سازی مایع مستقر شود. انویدیا و شرکای آن معتقدند که صفحات سرد D2C ظرفیت خنک‌کنندگی کافی برای توان طراحی حرارتی GPUهای Blackwell را که از 1.2 تا 1.4 کیلووات متغیر است، ارائه می‌دهند. علاوه بر این، صفحات سرد می‌توانند مستقیماً در طراحی‌های مرجع ماژول SXM و شاسی سرور مهندسی شوند که استقرار استاندارد شده را در بین شرکای OEM (دل، HPE، لنوو، سوپرمیکرو و غیره) ساده می‌کند.

GPUهای Blackwell انویدیا تا 1.4 کیلووات در هر واحد مصرف می‌کنند، بنابراین یک رک GB300 NVL72 حداقل 120 کیلووات مصرف می‌کند که بسیار فراتر از آن چیزی است که مراکز داده سنتی با خنک‌سازی هوا و حتی مایع برای آن طراحی شده بودند. در نتیجه، اپراتورهای مراکز داده مجبور شدند زیرساخت‌های تامین برق خود را ارتقا دهند که شامل باس‌بارهای جدید، واحدهای توزیع برق (PDU)، کابل‌کشی با ظرفیت بالاتر، UPSهای پشتیبان و اتاق‌های برق می‌شود. علاوه بر این، آنها مجبور شدند حلقه‌های خنک‌کننده خود را نیز ارتقا دهند. با این حال، نکته حیاتی این است که آنها به دلیل مصرف برق Blackwell مجبور به بازسازی کامل مراکز داده خود نشدند.

و حتی گرم‌تر خواهند شد

با این حال، مراکز داده هوش مصنوعی نسل بعدی — یا همانطور که انویدیا آنها را کارخانه‌های هوش مصنوعی می‌نامد — احتمالاً به ارتقاهای بیشتری نیاز خواهند داشت، یا باید از ابتدا ساخته شوند، زیرا انتظار می‌رود مصرف برق شتاب‌دهنده‌های هوش مصنوعی آینده در سال‌های آتی به طور چشمگیری افزایش یابد.

گوگل

انتظار می‌رود (توسط KAIST و برخی منابع صنعتی) GPUهای مرکز داده Rubin و Rubin Ultra نسل بعدی انویدیا مصرف برق را به ترتیب به 1800 وات تا 3600 وات افزایش دهند، که این امر دوباره مصرف برق تاسیسات مرکز داده را افزایش خواهد داد. با این حال، پیش‌بینی می‌شود که انویدیا و شرکای آن همچنان از خنک‌سازی مایع مستقیم با این پردازنده‌ها استفاده کنند، حتی با سیستم‌های NVL576 (با 144 چیپلت محاسباتی) مبتنی بر معماری رک Kyber. در همین حال، اگزاسکیلرهایی که قصد استفاده از رک‌های Kyber را دارند، همچنان باید زیرساخت‌های تامین برق و سالن‌های کامپیوتر خود را به طور قابل توجهی ارتقا دهند تا این سیستم‌ها را در خود جای دهند.

خنک‌سازی غوطه‌وری در حال افزایش است

با این حال، با شروع از GPUهای Feynman که قرار است در سال 2028 عرضه شوند و انتظار می‌رود 4400 وات در هر بسته مصرف کنند، KAIST و برخی منابع آشنا با برنامه‌های انویدیا معتقدند که این شرکت واقعاً به سیستم‌های خنک‌سازی غوطه‌وری روی آورده است. این امر مستلزم قرار دادن بردهای سرور و تجهیزات مستقیماً در یک مخزن مایع خنک‌کننده است که رسانای الکتریکی نیست.

مایکروسافت

خنک‌سازی غوطه‌وری چیز جدیدی نیست. قرار دادن تجهیزات الکتریکی — مانند ترانسفورماتورها — در مایعات دی‌الکتریک برای اهداف خنک‌سازی، طبق ویکی‌پدیا، قبل از سال 1887 نیز انجام می‌شد. Cray و IBM در دهه‌های 1960 و 1980 با خنک‌سازی غوطه‌وری آزمایش کردند، اما در آن زمان هیچ ابررایانه در مقیاس بزرگ با خنک‌سازی غوطه‌وری ساخته نشد.

با این حال، خنک‌سازی غوطه‌وری در اواسط دهه 2010 دوباره مورد توجه قرار گرفت، زمانی که مزایای هزینه کل مالکیت (TCO) آن را برای استخراج‌کنندگان رمزارز جذاب کرد و این فناوری را به سمت بلوغ سوق داد. در سال 2017، استارت‌آپ‌های متعددی سیستم‌های خنک‌سازی غوطه‌وری را برای رمزارزها و نیازهای رو به رشد خنک‌سازی مراکز داده ساختند.

در سال 2018، پروژه Open Compute خنک‌سازی غوطه‌وری را تحت مسیر راه‌حل‌های خنک‌سازی پیشرفته خود اضافه کرد و در سال 2019 اولین استانداردهای صنعتی در اجلاس OCP در سن خوزه رونمایی شد. اینتل با شرکت‌های مختلفی در زمینه فناوری‌های خنک‌سازی غوطه‌وری کار کرده و در سال‌های 2022 – 2023، حتی نتایج عملی را نیز اعلام کرد.

خنک‌سازی غوطه‌وری کارایی بالاتری ارائه می‌دهد و می‌تواند رک‌های بسیار متراکم با دفع حرارت بیش از 100 کیلووات را مدیریت کند، با این حال به زیرساخت‌های تخصصی نیاز دارد و فاقد گواهینامه فروشنده است. به همین دلیل، انویدیا به دلایل زیادی خنک‌سازی غوطه‌وری را برای GPUهای Blackwell به طور کامل تایید نمی‌کند:

  • اولاً، قابلیت اطمینان طولانی‌مدت قطعات در مایعات دی‌الکتریک نامشخص است و بدون داده‌های اثبات شده در مورد طول عمر قطعات، شرکت به سختی می‌تواند گارانتی ارائه دهد.
  • ثانیاً، سالن‌های محاسباتی مدرن برای خنک‌کننده‌های غوطه‌وری آماده نیستند. غوطه‌وری به مخازن، پمپ‌ها و سیستم‌های مدیریت مایع مخصوص نیاز دارد که (حداقل در حال حاضر) با لوله‌کشی موجود مراکز داده سازگار نیستند.
  • ثالثاً، در حالی که OCP به نظر می‌رسد استانداردهایی برای تنظیمات خنک‌سازی غوطه‌وری دارد، این فناوری هنوز به طور کامل استاندارد نشده است، که پیاده‌سازی آن را برای شرکا گران می‌کند.

همچنین، همه سیستم‌های خنک‌سازی غوطه‌وری به یک شکل کار نمی‌کنند.

انواع مختلف خنک‌سازی غوطه‌وری

سیستم‌های خنک‌سازی غوطه‌وری که معمولاً توسط مزارع استخراج رمزارز استفاده می‌شوند و در نمایشگاه‌هایی مانند Computex به نمایش گذاشته شده‌اند، نشان‌دهنده خنک‌سازی غوطه‌وری تک‌فاز هستند. سرورها در یک روغن دی‌الکتریک غیررسانا (یا یک مایع مهندسی شده خاص) غوطه‌ور می‌شوند که گرما را مستقیماً از قطعات جذب می‌کند. پمپ‌ها مایع گرم شده را به یک مبدل حرارتی به گردش در می‌آورند، جایی که گرما را آزاد می‌کند، خنک‌تر می‌شود و سپس دوباره به گردش در می‌آید. چنین سیستم‌های خنک‌سازی غوطه‌وری نسبتاً ارزان هستند (می‌توانید یک سیستم آماده 12 کیلوواتی را با مایع خنک‌کننده با قیمت 2,108 دلار تهیه کنید) و برای رمزارزها و HPC در مقیاس کوچک مفید هستند، اما به سختی می‌توانند به آنچه انویدیا “کارخانه‌های هوش مصنوعی” می‌نامد، مقیاس‌پذیر باشند.

گیگابایت

در سیستم‌های خنک‌سازی غوطه‌وری دو‌فاز، سرورها در یک مایع دی‌الکتریک با نقطه جوش پایین غوطه‌ور می‌شوند. گرمای تراشه‌ها باعث می‌شود مایع به بخار تبدیل شود، که بالا می‌رود، روی یک کویل یا صفحه خنک شده در بالای مخزن متراکم می‌شود و به پایین می‌چکد، بدین ترتیب یک چرخه خنک‌سازی خودکار ایجاد می‌کند. این چرخه گرما را با کارایی بیشتری حذف می‌کند و می‌تواند از چگالی‌های بسیار بالای رک، که به خوبی از 100 کیلووات فراتر می‌رود، پشتیبانی کند.

علاوه بر این، از آنجایی که سیستم‌های خنک‌سازی غوطه‌وری دو‌فاز هیچ پمپ یا وسایل دیگری برای همرفت اجباری ندارند، این به معنای یک یا دو نقطه شکست بالقوه کمتر است. با این حال، خود این سیستم‌ها به مایعات تخصصی و گران‌قیمت مانند 3M Novec (که دیگر تولید نمی‌شود زیرا حاوی مواد پر و پلی‌فلوروآلکیل خطرناک بود که 3M متعهد شد دیگر تولید نکند) متکی هستند، باید برای جلوگیری از تبخیر، هرمتیک باشند و به زیرساخت‌های مهندسی شده دقیقی نیاز دارند که جایگزین زیرساخت‌های مراکز داده سنتی خواهد شد.

در حال حاضر، یک مخزن معادل رک 40U، طبق DataCenterDynamics، 20,000 دلار هزینه دارد. مایع دی‌الکتریک تخصصی با نقطه جوش پایین می‌تواند 15,000 تا 20,000 دلار دیگر هزینه داشته باشد (جایگزین‌های 3M Novec می‌توانند 1,876 دلار در هر سطل هزینه داشته باشند). همچنین، از آنجایی که 3M تولید مایعات دی‌الکتریک با نقطه جوش پایین را در سال 2024 متوقف کرد، این امر توسعه و استانداردسازی خنک‌سازی غوطه‌وری دو‌فاز را به شدت پیچیده می‌کند.

در واقع، مایعات از بزرگترین نگرانی‌ها هستند زیرا استاندارد نشده‌اند و هیچ کس نمی‌داند که چگونه می‌توانند بر سخت‌افزار در بلندمدت تأثیر بگذارند، که ممکن است باعث نرخ خرابی غیرعادی شود. علاوه بر این، از دست دادن بخار باعث پر کردن مکرر مایع می‌شود که هزینه‌های سرویس‌دهی را افزایش می‌دهد. در همین حال، سرویس‌دهی سخت‌افزار غوطه‌ور شده خود نیاز به کاهش سرعت یا خاموش کردن مخازن برای محدود کردن جوشیدن دارد که به طور بالقوه زمان از کار افتادگی را افزایش می‌دهد.

بدون استانداردهای مشخص یا حتی یک مسیر روشن برای تکامل خنک‌سازی غوطه‌وری مایع، شرکت‌های مختلف رویکردهای متفاوتی را امتحان می‌کنند. به عنوان مثال، Vertiv پیشنهاد می‌کند سیستم‌های هیبریدی بسازد که خنک‌سازی غوطه‌وری دو‌فاز را با سایر استراتژی‌های خنک‌سازی، از جمله استفاده از حلقه‌های آب یا مبدل‌های حرارتی درب عقب برای حذف گرمای باقیمانده، ترکیب می‌کنند.

استقرارهای محدود تاکنون

در مورد شرکت‌های بزرگ، هیچ یک خنک‌سازی غوطه‌وری را در مقیاس وسیع مستقر نکرده‌اند. نه AWS، نه گوگل، نه متا و نه اوراکل استقرار خنک‌سازی غوطه‌وری را در هیچ مقیاسی تأیید نکرده‌اند.

مایکروسافت

مایکروسافت اولین ارائه‌دهنده بزرگ ابری بود که خنک‌سازی غوطه‌وری دو‌فاز را در تولید واقعی به کار گرفت و از مخازن پر از مایع دی‌الکتریک با نقطه جوش پایین برای خنک کردن CPUها و GPUها در مرکز داده خود در کوینسی، واشنگتن، در سال 2021 استفاده کرد. این تنظیمات که توسط مایکروسافت و Wywinn طراحی شده بود، CPUهای 300 واتی و GPUهای 700 واتی را در مایع مهندسی شده 3M غوطه‌ور می‌کند که در حدود 50 درجه سانتی‌گراد به جوش می‌آید.

آزمایش‌های مایکروسافت نشان داد که این روش می‌تواند مصرف انرژی هر سرور را 5% تا 15% در مقایسه با خنک‌سازی معمولی کاهش دهد، در حالی که امکان اورکلاک را برای جذب پیک‌های کاری مانند آنچه در زمان اوج جلسات Teams مشاهده می‌شود، فراهم می‌کند. فراتر از کارایی، غوطه‌وری همچنین امکان چیدمان متراکم‌تر سرورها را فراهم می‌کند که ظرفیت محاسباتی را بدون محدودیت‌های جریان هوا افزایش می‌دهد.

مایکروسافت همچنین اشاره می‌کند که خنک‌سازی غوطه‌وری ممکن است با کاهش قرار گرفتن در معرض اکسیژن و رطوبت، نرخ خرابی سخت‌افزار را نیز کاهش دهد، مشابه یافته‌های آزمایش مرکز داده زیر آب پروژه Natick. اگر این روش قابل اجرا ثابت شود، خنک‌سازی غوطه‌وری می‌تواند در محیط‌هایی استفاده شود که قطعات بلافاصله پس از خرابی تعویض نمی‌شوند. با این حال، این شرکت هیچ به‌روزرسانی در مورد پروژه خنک‌سازی غوطه‌وری خود اعلام نکرده است، بنابراین نمی‌دانیم که آیا یافته‌های این آزمایش می‌تواند برای خنک کردن مراکز داده هوش مصنوعی نسل بعدی در سال‌های آینده استفاده شود یا خیر.

نوری در انتهای تونل؟

ممکن است نوری در انتهای تونل باشد. اینتل و شل اوایل امسال اولین راه‌حل خنک‌سازی غوطه‌وری تک‌فاز کاملاً گواهی‌شده را برای مراکز داده معرفی کردند. این همکاری همچنین شامل سوپرمیکرو و سابمر بود که به آن وزن قابل توجهی در صنعت می‌دهد.

سابمر

این راه‌حل بر مایعات دی‌الکتریک تک‌فاز شل متکی است که از شیمی گاز به مایع (GTL) و فرمولاسیون‌های استری این شرکت برای حداکثر عملکرد حرارتی توسعه یافته‌اند. این مایعات از نظر الکتریکی نارسانا، فاقد PFAS و تا درجات مختلف زیست‌تخریب‌پذیر هستند که آنها را ایمن‌تر و پایدارتر از گزینه‌های مبتنی بر فلوروکربن متوقف شده 3M می‌کند.

شل ادعا می‌کند که با استفاده از مایعات آن به جای خنک‌سازی هوا، مصرف برق می‌تواند تا 48% کاهش یابد، هزینه‌های سرمایه‌ای و عملیاتی تا 33% کاهش یابد و حتی فضای کف سالن کامپیوتر نیز می‌تواند کوچک شود. اینتل مزایای دقیق را برای CPUهای خود فاش نکرده است، اگرچه واضح است که می‌تواند دمای سرور را با سیستم‌های خنک‌سازی غوطه‌وری تک‌فاز به طور قابل توجهی کاهش دهد.

این راه‌حل برای کار در شرایط محیطی تا 45 درجه سانتی‌گراد تأیید شده و برای استفاده با پلتفرم‌های دارای پردازنده‌های Intel Xeon نسل 4ام و 5ام گواهی شده است، با اینتل که یک گارانتی غوطه‌وری (Immersion Warranty Rider) برای پوشش استفاده از آنها ارائه می‌دهد. از یک سو، این تأیید می‌کند که اینتل می‌تواند تضمین کند که خنک‌سازی غوطه‌وری دوامی برابر با سیستم‌های خنک‌سازی هوا را فراهم می‌کند. اما از سوی دیگر، گارانتی فقط برای CPUهای Intel Xeon نسل قبلی معتبر است که دقیقاً برای قدرتمندترین ماشین‌های موجود استفاده نمی‌شوند.

اما نکته کلیدی در مورد این اعلامیه این است که سه شرکت بزرگ فناوری — اینتل، شل و سوپرمیکرو — با همراهی سابمر، فعالانه در حال کار بر روی راه‌حل‌هایی برای سیستم‌های خنک‌سازی غوطه‌وری تک‌فاز هستند. با این حال، نمی‌دانیم که آیا این همکاری می‌تواند به راه‌حل‌های خنک‌سازی غوطه‌وری دو‌فاز نیز گسترش یابد یا خیر.

خلاصه: صنعت باید اکنون اقدام کند

مراکز داده سنتی عمدتاً به خنک‌سازی هوا متکی هستند، اما این رویکرد برای مراکز داده هوش مصنوعی که از CPUها و GPUهای پرقدرت مانند GPUهای سری Blackwell انویدیا استفاده می‌کنند، به طور فزاینده‌ای ناکافی است. برای مقابله با چگالی‌های توان رو به رشد، اپراتورهای مراکز داده در حال اتخاذ خنک‌سازی مایع هستند که انتظار می‌رود برای سخت‌افزارهای امروزی و همچنین شتاب‌دهنده‌های نسل بعدی مانند Rubin و Rubin Ultra که انتظار می‌رود به 1.8 تا 3.6 کیلووات برسند، کارآمد باشد. با این حال، منابع صنعتی و موسساتی مانند KAIST انتظار دارند که انویدیا و شرکای آن برای GPUهای با کد Feynman که پیش‌بینی می‌شود مصرف برقی در حدود 4.4 کیلووات داشته باشند، به خنک‌سازی مایع غوطه‌وری نیاز پیدا کنند.

اما در حالی که خنک‌سازی غوطه‌وری یک ضرورت محتمل در چند سال آینده است، به سختی برای زمان اوج آماده است. غوطه‌وری تک‌فاز نسبتاً ارزان است اما مقیاس‌پذیری آن برای مراکز داده هوش مصنوعی که هزاران GPU را در خود جای می‌دهند، دشوار است؛ در حالی که سیستم‌های دو‌فاز، که از مایعات دی‌الکتریک جوشان استفاده می‌کنند، بسیار کارآمدتر اما گران و پیچیده برای ساخت هستند.

تاکنون، هیچ یک از ارائه‌دهندگان بزرگ خدمات ابری (به جز مایکروسافت، اما ما از مقیاس آزمایش آن اطلاعی نداریم) تلاش نکرده‌اند خنک‌سازی مایع غوطه‌وری را در مقیاس قابل توجهی مستقر کنند، با وجود اینکه OCP در سال 2019 مشخصات خنک‌سازی مایع غوطه‌وری را تشریح کرده است. به همین دلیل، به نظر نمی‌رسد همه CSPهای بزرگ به خنک‌سازی غوطه‌وری علاقه‌مند باشند.

ممکن است دوباره حرکت ایجاد شود، زیرا اینتل، شل، سوپرمیکرو و سابمر اخیراً اولین راه‌حل غوطه‌وری تک‌فاز کاملاً گواهی‌شده را برای پردازنده‌های Xeon اینتل معرفی کردند که گارانتی را باطل نمی‌کند. این همکاری نشان‌دهنده علاقه رو به رشد به راه‌حل‌های غوطه‌وری استاندارد و گواهی‌شده است؛ با این حال، ما فقط در مورد چهار شرکت صحبت می‌کنیم که برای آماده‌سازی اکوسیستم خنک‌سازی غوطه‌وری برای راه‌اندازی در سال‌های 2028 – 2029 کافی نیست.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

جستجو در سایت

سبد خرید

درحال بارگذاری ...
بستن
مقایسه
مقایسه محصولات
لیست مقایسه محصولات شما خالی می باشد!