Nvidia details new software that enables location tracking for AI GPUs — opt-in remote data center GPU fleet management includes power usage and thermal monitoring | Tom's Hardware

انویدیا نرم‌افزار جدیدی را معرفی می‌کند که ردیابی موقعیت مکانی برای پردازنده‌های گرافیکی هوش مصنوعی را ممکن می‌سازد

در پی گزارش‌هایی مبنی بر اینکه انویدیا نرم‌افزار مدیریت ناوگان داده‌ای را توسعه داده است که می‌تواند مکان فیزیکی پردازنده‌های گرافیکی خود را ردیابی کند، انویدیا روز پنجشنبه جزئیات نرم‌افزار نظارت بر ناوگان پردازنده‌های گرافیکی خود را تشریح کرد. این نرم‌افزار در واقع اپراتورهای مراکز داده را قادر می‌سازد تا جنبه‌های مختلف یک ناوگان پردازنده‌های گرافیکی هوش مصنوعی را نظارت کنند. از جمله موارد دیگر، این امکان را فراهم می‌کند که مکان فیزیکی این پردازنده‌ها شناسایی شود، که می‌تواند یک عامل بازدارنده احتمالی در برابر قاچاق تراشه‌ها باشد. با این حال، یک نکته وجود دارد: این نرم‌افزار اختیاری است و اجباری نیست، که ممکن است اثربخشی آن را به عنوان ابزاری برای خنثی کردن قاچاقچیان، چه دولتی و چه غیره، محدود کند.

این نرم‌افزار تله‌متری گسترده‌ای را جمع‌آوری می‌کند که سپس در یک داشبورد مرکزی میزبانی شده بر روی پلتفرم NGC انویدیا تجمیع می‌شود. این رابط به مشتریان امکان می‌دهد وضعیت پردازنده‌های گرافیکی را در کل ناوگان خود، چه به صورت جهانی و چه بر اساس مناطق محاسباتی که مکان‌های فیزیکی یا ابری خاصی را نشان می‌دهند، مشاهده کنند، به این معنی که نرم‌افزار می‌تواند مکان فیزیکی سخت‌افزار انویدیا را شناسایی کند. اپراتورها می‌توانند خلاصه‌های کل ناوگان را مشاهده کنند، به خوشه‌های جداگانه وارد شوند و گزارش‌های ساختاریافته‌ای حاوی داده‌های موجودی و اطلاعات سلامت کل سیستم تولید کنند.

انویدیا تاکید می‌کند که این نرم‌افزار صرفاً مشاهده‌ای است: بینشی در مورد رفتار پردازنده‌های گرافیکی ارائه می‌دهد اما نمی‌تواند به عنوان یک در پشتی یا سوئیچ قطع عمل کند. در نتیجه، حتی اگر انویدیا از طریق پلتفرم NGC کشف کند که برخی از پردازنده‌های گرافیکی آن به چین قاچاق شده‌اند، نمی‌تواند آنها را خاموش کند. با این حال، این شرکت احتمالاً می‌تواند از داده‌ها برای کشف چگونگی رسیدن پردازنده‌های گرافیکی به آن مکان استفاده کند. انویدیا می‌گوید این نرم‌افزار یک عامل مشتری‌نصب شده و متن‌باز است که شفاف و قابل حسابرسی است.

Nvidia

نرم‌افزار جدید مدیریت ناوگان انویدیا به اپراتورهای مراکز داده دیدی دقیق و بی‌درنگ از نحوه عملکرد زیرساخت پردازنده‌های گرافیکی آنها تحت بار می‌دهد. این نرم‌افزار به طور مداوم تله‌متری مربوط به رفتار توان — از جمله نوسانات کوتاه مدت — را جمع‌آوری می‌کند و اپراتورها را قادر می‌سازد تا در محدودیت‌های توان باقی بمانند. علاوه بر داده‌های توان، سیستم استفاده، مصرف پهنای باند حافظه و سلامت اتصالات را در سراسر ناوگان نظارت می‌کند تا اپراتورها بتوانند استفاده و عملکرد به ازای هر وات را به حداکثر برسانند. این شاخص‌ها به آشکارسازی عدم تعادل بار، اشباع پهنای باند و مسائل در سطح لینک کمک می‌کنند که می‌توانند به آرامی عملکرد را در خوشه‌های بزرگ هوش مصنوعی کاهش دهند.

تمرکز دیگر این نرم‌افزار بر شرایط حرارتی و جریان هوا برای جلوگیری از کاهش عملکرد حرارتی (thermal throttling) و پیری زودرس قطعات است. با شناسایی زودهنگام نقاط داغ و جریان هوای ناکافی، اپراتورها می‌توانند از افت عملکردی که معمولاً در محیط‌های محاسباتی با چگالی بالا رخ می‌دهد، جلوگیری کرده و در بسیاری از موارد، از پیری زودرس شتاب‌دهنده‌های هوش مصنوعی پیشگیری کنند.

این سیستم همچنین بررسی می‌کند که آیا گره‌ها پشته‌های نرم‌افزاری و پارامترهای عملیاتی یکسانی دارند یا خیر، که برای مجموعه‌داده‌های قابل بازتولید و رفتار آموزشی قابل پیش‌بینی بسیار مهم است. هرگونه واگرایی در پیکربندی، مانند درایورها یا تنظیمات ناسازگار، در پلتفرم قابل مشاهده می‌شود.

توجه به این نکته مهم است که سرویس جدید مدیریت ناوگان انویدیا تنها ابزار این شرکت برای تشخیص و کنترل از راه دور رفتار پردازنده‌های گرافیکی نیست، اگرچه پیشرفته‌ترین آنهاست. به عنوان مثال، DCGM یک جعبه ابزار تشخیص و نظارت محلی است که داده‌های خام سلامت پردازنده‌های گرافیکی را نمایش می‌دهد، اما اپراتورها را ملزم می‌کند تا داشبوردها و خطوط لوله تجمیع خود را بسازند، که قابلیت استفاده آن را به شدت کاهش می‌دهد، اما اپراتورها را قادر می‌سازند تا ابزارهای مورد نیاز خود را بسازند. همچنین Base Command وجود دارد، یک محیط گردش کار و ارکستراسیون که برای توسعه هوش مصنوعی، زمان‌بندی وظایف، مدیریت مجموعه‌داده‌ها و همکاری طراحی شده است، نه برای نظارت عمیق بر سخت‌افزار.

در همین حال، هر سه ابزار مجموعه قدرتمندی از کنترل‌ها را برای اپراتورهای مراکز داده ارائه می‌دهند. DCGM پروب‌های سطح گره را فراهم می‌کند، Base Command وظایف کاری را مدیریت می‌کند، و سرویس جدید آنها را در یک پلتفرم دیداری در سطح ناوگان ادغام می‌کند که برای استقرار پردازنده‌های گرافیکی توزیع شده جغرافیایی مقیاس‌پذیر است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

جستجو در سایت

سبد خرید

درحال بارگذاری ...
بستن
مقایسه
مقایسه محصولات
لیست مقایسه محصولات شما خالی می باشد!