خنکسازی غوطهوری برای مراکز داده: یک اجتنابناپذیری عجیب؟
مراکز داده مدرن (DCs) از انواع مختلف سیستمهای خنککننده استفاده میکنند. اکثر مراکز داده امروزی همچنان از خنکسازی با هوا به عنوان پایه استفاده میکنند، به طوری که هوای خنک در قفسهها به گردش درآمده و هوای گرم خارج میشود، اما این روش با CPUها و GPUهای پرقدرت مدرن مشکل دارد. با شروع از Hopper انویدیا و گسترش با Blackwell، اپراتورها به سمت خنکسازی مایع، به ویژه راهحلهای صفحه سرد و مستقیم به تراشه، حرکت میکنند که میتوانند با زیرساختهای خنکسازی هوای موجود یکپارچه شوند.
با این حال، در حالی که سیستمهای پیشرفتهتری مانند خنکسازی غوطهوری وجود دارند، با وجود ادعاهایی مبنی بر مزایای چشمگیر در چگالی عملکرد، هزینه کلی و کارایی، پذیرش محدودی دارند. اما، با توجه به اینکه نسلهای بعدی شتابدهندههای هوش مصنوعی قرار است مصرف برق را افزایش دهند، خنکسازی غوطهوری ممکن است طی سه یا چهار سال آینده اجتنابناپذیر شود. اما آیا صنعت آماده است؟
مراکز داده در حال گرمتر شدن هستند
مراکز داده هوش مصنوعی با استفاده از ترکیبی از جریان هوا، گردش مایع و سیستمهای تبادل حرارت که بار حرارتی را به خارج از تاسیسات منتقل میکنند، گرما را دفع میکنند. اصل اساسی این است که گرما را از تراشههای داغ (CPU، GPU، سوئیچها) به یک محیط — هوا، آب یا یک مایع دیالکتریک (مانند گلیکول آب) — منتقل کرده و سپس آن گرما را به برجهای خنککننده، چیلرها یا واحدهای تبخیری که در آنجا به اتمسفر آزاد میشود، منتقل کنند.
در مراکز داده با خنکسازی هوا، سرورها هوای خروجی گرم را به محفظههای برگشت سیستمهای تهویه مطبوع (HVAC) میفرستند که سپس توسط چیلرها یا برجهای خنککننده تبخیری خنک شده و دوباره به گردش در میآید. این روش ارزان و آسان برای پیادهسازی است، اما برای مراکز داده هوش مصنوعی که از سختافزارهای پرمصرف مانند GPUهای Blackwell انویدیا (که از پرمصرفترین پردازندههای صنعت هستند) استفاده میکنند، کافی نیست.
در سیستمهای خنکسازی مایع، گرما توسط مایع خنککننده در گردش جذب میشود که به یک مبدل حرارتی جریان مییابد. سپس گرما یا به حلقههای آب تاسیسات و برجهای خنککننده دفع میشود یا تا حدی از طریق خنکسازی تبخیری دفع شده و سپس به خارج از محوطه تخلیه میشود. در این حالت، خنکسازی مایع امکان حذف بخش عمده بار حرارتی (مثلاً 80% – 85%) را فراهم میکند، در حالی که گرمای باقیمانده همچنان توسط خنکسازی هوای سنتی مدیریت میشود.
در حال حاضر، انویدیا برای GPUهای مرکز داده Blackwell، استفاده از خنکسازی مستقیم به تراشه (D2C) را توصیه میکند، که در آن یک صفحه سرد با مایع در حال گردش به پردازنده متصل میشود. این روش معمولاً میتواند در ترکیب با زیرساختهای خنکسازی هوای موجود و خنکسازی مایع مستقر شود. انویدیا و شرکای آن معتقدند که صفحات سرد D2C ظرفیت خنککنندگی کافی برای توان طراحی حرارتی GPUهای Blackwell را که از 1.2 تا 1.4 کیلووات متغیر است، ارائه میدهند. علاوه بر این، صفحات سرد میتوانند مستقیماً در طراحیهای مرجع ماژول SXM و شاسی سرور مهندسی شوند که استقرار استاندارد شده را در بین شرکای OEM (دل، HPE، لنوو، سوپرمیکرو و غیره) ساده میکند.
GPUهای Blackwell انویدیا تا 1.4 کیلووات در هر واحد مصرف میکنند، بنابراین یک رک GB300 NVL72 حداقل 120 کیلووات مصرف میکند که بسیار فراتر از آن چیزی است که مراکز داده سنتی با خنکسازی هوا و حتی مایع برای آن طراحی شده بودند. در نتیجه، اپراتورهای مراکز داده مجبور شدند زیرساختهای تامین برق خود را ارتقا دهند که شامل باسبارهای جدید، واحدهای توزیع برق (PDU)، کابلکشی با ظرفیت بالاتر، UPSهای پشتیبان و اتاقهای برق میشود. علاوه بر این، آنها مجبور شدند حلقههای خنککننده خود را نیز ارتقا دهند. با این حال، نکته حیاتی این است که آنها به دلیل مصرف برق Blackwell مجبور به بازسازی کامل مراکز داده خود نشدند.
و حتی گرمتر خواهند شد
با این حال، مراکز داده هوش مصنوعی نسل بعدی — یا همانطور که انویدیا آنها را کارخانههای هوش مصنوعی مینامد — احتمالاً به ارتقاهای بیشتری نیاز خواهند داشت، یا باید از ابتدا ساخته شوند، زیرا انتظار میرود مصرف برق شتابدهندههای هوش مصنوعی آینده در سالهای آتی به طور چشمگیری افزایش یابد.
انتظار میرود (توسط KAIST و برخی منابع صنعتی) GPUهای مرکز داده Rubin و Rubin Ultra نسل بعدی انویدیا مصرف برق را به ترتیب به 1800 وات تا 3600 وات افزایش دهند، که این امر دوباره مصرف برق تاسیسات مرکز داده را افزایش خواهد داد. با این حال، پیشبینی میشود که انویدیا و شرکای آن همچنان از خنکسازی مایع مستقیم با این پردازندهها استفاده کنند، حتی با سیستمهای NVL576 (با 144 چیپلت محاسباتی) مبتنی بر معماری رک Kyber. در همین حال، اگزاسکیلرهایی که قصد استفاده از رکهای Kyber را دارند، همچنان باید زیرساختهای تامین برق و سالنهای کامپیوتر خود را به طور قابل توجهی ارتقا دهند تا این سیستمها را در خود جای دهند.
خنکسازی غوطهوری در حال افزایش است
با این حال، با شروع از GPUهای Feynman که قرار است در سال 2028 عرضه شوند و انتظار میرود 4400 وات در هر بسته مصرف کنند، KAIST و برخی منابع آشنا با برنامههای انویدیا معتقدند که این شرکت واقعاً به سیستمهای خنکسازی غوطهوری روی آورده است. این امر مستلزم قرار دادن بردهای سرور و تجهیزات مستقیماً در یک مخزن مایع خنککننده است که رسانای الکتریکی نیست.
خنکسازی غوطهوری چیز جدیدی نیست. قرار دادن تجهیزات الکتریکی — مانند ترانسفورماتورها — در مایعات دیالکتریک برای اهداف خنکسازی، طبق ویکیپدیا، قبل از سال 1887 نیز انجام میشد. Cray و IBM در دهههای 1960 و 1980 با خنکسازی غوطهوری آزمایش کردند، اما در آن زمان هیچ ابررایانه در مقیاس بزرگ با خنکسازی غوطهوری ساخته نشد.
با این حال، خنکسازی غوطهوری در اواسط دهه 2010 دوباره مورد توجه قرار گرفت، زمانی که مزایای هزینه کل مالکیت (TCO) آن را برای استخراجکنندگان رمزارز جذاب کرد و این فناوری را به سمت بلوغ سوق داد. در سال 2017، استارتآپهای متعددی سیستمهای خنکسازی غوطهوری را برای رمزارزها و نیازهای رو به رشد خنکسازی مراکز داده ساختند.
در سال 2018، پروژه Open Compute خنکسازی غوطهوری را تحت مسیر راهحلهای خنکسازی پیشرفته خود اضافه کرد و در سال 2019 اولین استانداردهای صنعتی در اجلاس OCP در سن خوزه رونمایی شد. اینتل با شرکتهای مختلفی در زمینه فناوریهای خنکسازی غوطهوری کار کرده و در سالهای 2022 – 2023، حتی نتایج عملی را نیز اعلام کرد.
خنکسازی غوطهوری کارایی بالاتری ارائه میدهد و میتواند رکهای بسیار متراکم با دفع حرارت بیش از 100 کیلووات را مدیریت کند، با این حال به زیرساختهای تخصصی نیاز دارد و فاقد گواهینامه فروشنده است. به همین دلیل، انویدیا به دلایل زیادی خنکسازی غوطهوری را برای GPUهای Blackwell به طور کامل تایید نمیکند:
- اولاً، قابلیت اطمینان طولانیمدت قطعات در مایعات دیالکتریک نامشخص است و بدون دادههای اثبات شده در مورد طول عمر قطعات، شرکت به سختی میتواند گارانتی ارائه دهد.
- ثانیاً، سالنهای محاسباتی مدرن برای خنککنندههای غوطهوری آماده نیستند. غوطهوری به مخازن، پمپها و سیستمهای مدیریت مایع مخصوص نیاز دارد که (حداقل در حال حاضر) با لولهکشی موجود مراکز داده سازگار نیستند.
- ثالثاً، در حالی که OCP به نظر میرسد استانداردهایی برای تنظیمات خنکسازی غوطهوری دارد، این فناوری هنوز به طور کامل استاندارد نشده است، که پیادهسازی آن را برای شرکا گران میکند.
همچنین، همه سیستمهای خنکسازی غوطهوری به یک شکل کار نمیکنند.
انواع مختلف خنکسازی غوطهوری
سیستمهای خنکسازی غوطهوری که معمولاً توسط مزارع استخراج رمزارز استفاده میشوند و در نمایشگاههایی مانند Computex به نمایش گذاشته شدهاند، نشاندهنده خنکسازی غوطهوری تکفاز هستند. سرورها در یک روغن دیالکتریک غیررسانا (یا یک مایع مهندسی شده خاص) غوطهور میشوند که گرما را مستقیماً از قطعات جذب میکند. پمپها مایع گرم شده را به یک مبدل حرارتی به گردش در میآورند، جایی که گرما را آزاد میکند، خنکتر میشود و سپس دوباره به گردش در میآید. چنین سیستمهای خنکسازی غوطهوری نسبتاً ارزان هستند (میتوانید یک سیستم آماده 12 کیلوواتی را با مایع خنککننده با قیمت 2,108 دلار تهیه کنید) و برای رمزارزها و HPC در مقیاس کوچک مفید هستند، اما به سختی میتوانند به آنچه انویدیا “کارخانههای هوش مصنوعی” مینامد، مقیاسپذیر باشند.
در سیستمهای خنکسازی غوطهوری دوفاز، سرورها در یک مایع دیالکتریک با نقطه جوش پایین غوطهور میشوند. گرمای تراشهها باعث میشود مایع به بخار تبدیل شود، که بالا میرود، روی یک کویل یا صفحه خنک شده در بالای مخزن متراکم میشود و به پایین میچکد، بدین ترتیب یک چرخه خنکسازی خودکار ایجاد میکند. این چرخه گرما را با کارایی بیشتری حذف میکند و میتواند از چگالیهای بسیار بالای رک، که به خوبی از 100 کیلووات فراتر میرود، پشتیبانی کند.
علاوه بر این، از آنجایی که سیستمهای خنکسازی غوطهوری دوفاز هیچ پمپ یا وسایل دیگری برای همرفت اجباری ندارند، این به معنای یک یا دو نقطه شکست بالقوه کمتر است. با این حال، خود این سیستمها به مایعات تخصصی و گرانقیمت مانند 3M Novec (که دیگر تولید نمیشود زیرا حاوی مواد پر و پلیفلوروآلکیل خطرناک بود که 3M متعهد شد دیگر تولید نکند) متکی هستند، باید برای جلوگیری از تبخیر، هرمتیک باشند و به زیرساختهای مهندسی شده دقیقی نیاز دارند که جایگزین زیرساختهای مراکز داده سنتی خواهد شد.
در حال حاضر، یک مخزن معادل رک 40U، طبق DataCenterDynamics، 20,000 دلار هزینه دارد. مایع دیالکتریک تخصصی با نقطه جوش پایین میتواند 15,000 تا 20,000 دلار دیگر هزینه داشته باشد (جایگزینهای 3M Novec میتوانند 1,876 دلار در هر سطل هزینه داشته باشند). همچنین، از آنجایی که 3M تولید مایعات دیالکتریک با نقطه جوش پایین را در سال 2024 متوقف کرد، این امر توسعه و استانداردسازی خنکسازی غوطهوری دوفاز را به شدت پیچیده میکند.
در واقع، مایعات از بزرگترین نگرانیها هستند زیرا استاندارد نشدهاند و هیچ کس نمیداند که چگونه میتوانند بر سختافزار در بلندمدت تأثیر بگذارند، که ممکن است باعث نرخ خرابی غیرعادی شود. علاوه بر این، از دست دادن بخار باعث پر کردن مکرر مایع میشود که هزینههای سرویسدهی را افزایش میدهد. در همین حال، سرویسدهی سختافزار غوطهور شده خود نیاز به کاهش سرعت یا خاموش کردن مخازن برای محدود کردن جوشیدن دارد که به طور بالقوه زمان از کار افتادگی را افزایش میدهد.
بدون استانداردهای مشخص یا حتی یک مسیر روشن برای تکامل خنکسازی غوطهوری مایع، شرکتهای مختلف رویکردهای متفاوتی را امتحان میکنند. به عنوان مثال، Vertiv پیشنهاد میکند سیستمهای هیبریدی بسازد که خنکسازی غوطهوری دوفاز را با سایر استراتژیهای خنکسازی، از جمله استفاده از حلقههای آب یا مبدلهای حرارتی درب عقب برای حذف گرمای باقیمانده، ترکیب میکنند.
استقرارهای محدود تاکنون
در مورد شرکتهای بزرگ، هیچ یک خنکسازی غوطهوری را در مقیاس وسیع مستقر نکردهاند. نه AWS، نه گوگل، نه متا و نه اوراکل استقرار خنکسازی غوطهوری را در هیچ مقیاسی تأیید نکردهاند.
مایکروسافت اولین ارائهدهنده بزرگ ابری بود که خنکسازی غوطهوری دوفاز را در تولید واقعی به کار گرفت و از مخازن پر از مایع دیالکتریک با نقطه جوش پایین برای خنک کردن CPUها و GPUها در مرکز داده خود در کوینسی، واشنگتن، در سال 2021 استفاده کرد. این تنظیمات که توسط مایکروسافت و Wywinn طراحی شده بود، CPUهای 300 واتی و GPUهای 700 واتی را در مایع مهندسی شده 3M غوطهور میکند که در حدود 50 درجه سانتیگراد به جوش میآید.
آزمایشهای مایکروسافت نشان داد که این روش میتواند مصرف انرژی هر سرور را 5% تا 15% در مقایسه با خنکسازی معمولی کاهش دهد، در حالی که امکان اورکلاک را برای جذب پیکهای کاری مانند آنچه در زمان اوج جلسات Teams مشاهده میشود، فراهم میکند. فراتر از کارایی، غوطهوری همچنین امکان چیدمان متراکمتر سرورها را فراهم میکند که ظرفیت محاسباتی را بدون محدودیتهای جریان هوا افزایش میدهد.
مایکروسافت همچنین اشاره میکند که خنکسازی غوطهوری ممکن است با کاهش قرار گرفتن در معرض اکسیژن و رطوبت، نرخ خرابی سختافزار را نیز کاهش دهد، مشابه یافتههای آزمایش مرکز داده زیر آب پروژه Natick. اگر این روش قابل اجرا ثابت شود، خنکسازی غوطهوری میتواند در محیطهایی استفاده شود که قطعات بلافاصله پس از خرابی تعویض نمیشوند. با این حال، این شرکت هیچ بهروزرسانی در مورد پروژه خنکسازی غوطهوری خود اعلام نکرده است، بنابراین نمیدانیم که آیا یافتههای این آزمایش میتواند برای خنک کردن مراکز داده هوش مصنوعی نسل بعدی در سالهای آینده استفاده شود یا خیر.
نوری در انتهای تونل؟
ممکن است نوری در انتهای تونل باشد. اینتل و شل اوایل امسال اولین راهحل خنکسازی غوطهوری تکفاز کاملاً گواهیشده را برای مراکز داده معرفی کردند. این همکاری همچنین شامل سوپرمیکرو و سابمر بود که به آن وزن قابل توجهی در صنعت میدهد.
این راهحل بر مایعات دیالکتریک تکفاز شل متکی است که از شیمی گاز به مایع (GTL) و فرمولاسیونهای استری این شرکت برای حداکثر عملکرد حرارتی توسعه یافتهاند. این مایعات از نظر الکتریکی نارسانا، فاقد PFAS و تا درجات مختلف زیستتخریبپذیر هستند که آنها را ایمنتر و پایدارتر از گزینههای مبتنی بر فلوروکربن متوقف شده 3M میکند.
شل ادعا میکند که با استفاده از مایعات آن به جای خنکسازی هوا، مصرف برق میتواند تا 48% کاهش یابد، هزینههای سرمایهای و عملیاتی تا 33% کاهش یابد و حتی فضای کف سالن کامپیوتر نیز میتواند کوچک شود. اینتل مزایای دقیق را برای CPUهای خود فاش نکرده است، اگرچه واضح است که میتواند دمای سرور را با سیستمهای خنکسازی غوطهوری تکفاز به طور قابل توجهی کاهش دهد.
این راهحل برای کار در شرایط محیطی تا 45 درجه سانتیگراد تأیید شده و برای استفاده با پلتفرمهای دارای پردازندههای Intel Xeon نسل 4ام و 5ام گواهی شده است، با اینتل که یک گارانتی غوطهوری (Immersion Warranty Rider) برای پوشش استفاده از آنها ارائه میدهد. از یک سو، این تأیید میکند که اینتل میتواند تضمین کند که خنکسازی غوطهوری دوامی برابر با سیستمهای خنکسازی هوا را فراهم میکند. اما از سوی دیگر، گارانتی فقط برای CPUهای Intel Xeon نسل قبلی معتبر است که دقیقاً برای قدرتمندترین ماشینهای موجود استفاده نمیشوند.
اما نکته کلیدی در مورد این اعلامیه این است که سه شرکت بزرگ فناوری — اینتل، شل و سوپرمیکرو — با همراهی سابمر، فعالانه در حال کار بر روی راهحلهایی برای سیستمهای خنکسازی غوطهوری تکفاز هستند. با این حال، نمیدانیم که آیا این همکاری میتواند به راهحلهای خنکسازی غوطهوری دوفاز نیز گسترش یابد یا خیر.
خلاصه: صنعت باید اکنون اقدام کند
مراکز داده سنتی عمدتاً به خنکسازی هوا متکی هستند، اما این رویکرد برای مراکز داده هوش مصنوعی که از CPUها و GPUهای پرقدرت مانند GPUهای سری Blackwell انویدیا استفاده میکنند، به طور فزایندهای ناکافی است. برای مقابله با چگالیهای توان رو به رشد، اپراتورهای مراکز داده در حال اتخاذ خنکسازی مایع هستند که انتظار میرود برای سختافزارهای امروزی و همچنین شتابدهندههای نسل بعدی مانند Rubin و Rubin Ultra که انتظار میرود به 1.8 تا 3.6 کیلووات برسند، کارآمد باشد. با این حال، منابع صنعتی و موسساتی مانند KAIST انتظار دارند که انویدیا و شرکای آن برای GPUهای با کد Feynman که پیشبینی میشود مصرف برقی در حدود 4.4 کیلووات داشته باشند، به خنکسازی مایع غوطهوری نیاز پیدا کنند.
اما در حالی که خنکسازی غوطهوری یک ضرورت محتمل در چند سال آینده است، به سختی برای زمان اوج آماده است. غوطهوری تکفاز نسبتاً ارزان است اما مقیاسپذیری آن برای مراکز داده هوش مصنوعی که هزاران GPU را در خود جای میدهند، دشوار است؛ در حالی که سیستمهای دوفاز، که از مایعات دیالکتریک جوشان استفاده میکنند، بسیار کارآمدتر اما گران و پیچیده برای ساخت هستند.
تاکنون، هیچ یک از ارائهدهندگان بزرگ خدمات ابری (به جز مایکروسافت، اما ما از مقیاس آزمایش آن اطلاعی نداریم) تلاش نکردهاند خنکسازی مایع غوطهوری را در مقیاس قابل توجهی مستقر کنند، با وجود اینکه OCP در سال 2019 مشخصات خنکسازی مایع غوطهوری را تشریح کرده است. به همین دلیل، به نظر نمیرسد همه CSPهای بزرگ به خنکسازی غوطهوری علاقهمند باشند.
ممکن است دوباره حرکت ایجاد شود، زیرا اینتل، شل، سوپرمیکرو و سابمر اخیراً اولین راهحل غوطهوری تکفاز کاملاً گواهیشده را برای پردازندههای Xeon اینتل معرفی کردند که گارانتی را باطل نمیکند. این همکاری نشاندهنده علاقه رو به رشد به راهحلهای غوطهوری استاندارد و گواهیشده است؛ با این حال، ما فقط در مورد چهار شرکت صحبت میکنیم که برای آمادهسازی اکوسیستم خنکسازی غوطهوری برای راهاندازی در سالهای 2028 – 2029 کافی نیست.
- کولبات
- شهریور 3, 1404
- 85 بازدید






