انویدیا نرمافزار جدیدی را معرفی میکند که ردیابی موقعیت مکانی برای پردازندههای گرافیکی هوش مصنوعی را ممکن میسازد
در پی گزارشهایی مبنی بر اینکه انویدیا نرمافزار مدیریت ناوگان دادهای را توسعه داده است که میتواند مکان فیزیکی پردازندههای گرافیکی خود را ردیابی کند، انویدیا روز پنجشنبه جزئیات نرمافزار نظارت بر ناوگان پردازندههای گرافیکی خود را تشریح کرد. این نرمافزار در واقع اپراتورهای مراکز داده را قادر میسازد تا جنبههای مختلف یک ناوگان پردازندههای گرافیکی هوش مصنوعی را نظارت کنند. از جمله موارد دیگر، این امکان را فراهم میکند که مکان فیزیکی این پردازندهها شناسایی شود، که میتواند یک عامل بازدارنده احتمالی در برابر قاچاق تراشهها باشد. با این حال، یک نکته وجود دارد: این نرمافزار اختیاری است و اجباری نیست، که ممکن است اثربخشی آن را به عنوان ابزاری برای خنثی کردن قاچاقچیان، چه دولتی و چه غیره، محدود کند.
این نرمافزار تلهمتری گستردهای را جمعآوری میکند که سپس در یک داشبورد مرکزی میزبانی شده بر روی پلتفرم NGC انویدیا تجمیع میشود. این رابط به مشتریان امکان میدهد وضعیت پردازندههای گرافیکی را در کل ناوگان خود، چه به صورت جهانی و چه بر اساس مناطق محاسباتی که مکانهای فیزیکی یا ابری خاصی را نشان میدهند، مشاهده کنند، به این معنی که نرمافزار میتواند مکان فیزیکی سختافزار انویدیا را شناسایی کند. اپراتورها میتوانند خلاصههای کل ناوگان را مشاهده کنند، به خوشههای جداگانه وارد شوند و گزارشهای ساختاریافتهای حاوی دادههای موجودی و اطلاعات سلامت کل سیستم تولید کنند.
انویدیا تاکید میکند که این نرمافزار صرفاً مشاهدهای است: بینشی در مورد رفتار پردازندههای گرافیکی ارائه میدهد اما نمیتواند به عنوان یک در پشتی یا سوئیچ قطع عمل کند. در نتیجه، حتی اگر انویدیا از طریق پلتفرم NGC کشف کند که برخی از پردازندههای گرافیکی آن به چین قاچاق شدهاند، نمیتواند آنها را خاموش کند. با این حال، این شرکت احتمالاً میتواند از دادهها برای کشف چگونگی رسیدن پردازندههای گرافیکی به آن مکان استفاده کند. انویدیا میگوید این نرمافزار یک عامل مشترینصب شده و متنباز است که شفاف و قابل حسابرسی است.
نرمافزار جدید مدیریت ناوگان انویدیا به اپراتورهای مراکز داده دیدی دقیق و بیدرنگ از نحوه عملکرد زیرساخت پردازندههای گرافیکی آنها تحت بار میدهد. این نرمافزار به طور مداوم تلهمتری مربوط به رفتار توان — از جمله نوسانات کوتاه مدت — را جمعآوری میکند و اپراتورها را قادر میسازد تا در محدودیتهای توان باقی بمانند. علاوه بر دادههای توان، سیستم استفاده، مصرف پهنای باند حافظه و سلامت اتصالات را در سراسر ناوگان نظارت میکند تا اپراتورها بتوانند استفاده و عملکرد به ازای هر وات را به حداکثر برسانند. این شاخصها به آشکارسازی عدم تعادل بار، اشباع پهنای باند و مسائل در سطح لینک کمک میکنند که میتوانند به آرامی عملکرد را در خوشههای بزرگ هوش مصنوعی کاهش دهند.
تمرکز دیگر این نرمافزار بر شرایط حرارتی و جریان هوا برای جلوگیری از کاهش عملکرد حرارتی (thermal throttling) و پیری زودرس قطعات است. با شناسایی زودهنگام نقاط داغ و جریان هوای ناکافی، اپراتورها میتوانند از افت عملکردی که معمولاً در محیطهای محاسباتی با چگالی بالا رخ میدهد، جلوگیری کرده و در بسیاری از موارد، از پیری زودرس شتابدهندههای هوش مصنوعی پیشگیری کنند.
این سیستم همچنین بررسی میکند که آیا گرهها پشتههای نرمافزاری و پارامترهای عملیاتی یکسانی دارند یا خیر، که برای مجموعهدادههای قابل بازتولید و رفتار آموزشی قابل پیشبینی بسیار مهم است. هرگونه واگرایی در پیکربندی، مانند درایورها یا تنظیمات ناسازگار، در پلتفرم قابل مشاهده میشود.
توجه به این نکته مهم است که سرویس جدید مدیریت ناوگان انویدیا تنها ابزار این شرکت برای تشخیص و کنترل از راه دور رفتار پردازندههای گرافیکی نیست، اگرچه پیشرفتهترین آنهاست. به عنوان مثال، DCGM یک جعبه ابزار تشخیص و نظارت محلی است که دادههای خام سلامت پردازندههای گرافیکی را نمایش میدهد، اما اپراتورها را ملزم میکند تا داشبوردها و خطوط لوله تجمیع خود را بسازند، که قابلیت استفاده آن را به شدت کاهش میدهد، اما اپراتورها را قادر میسازند تا ابزارهای مورد نیاز خود را بسازند. همچنین Base Command وجود دارد، یک محیط گردش کار و ارکستراسیون که برای توسعه هوش مصنوعی، زمانبندی وظایف، مدیریت مجموعهدادهها و همکاری طراحی شده است، نه برای نظارت عمیق بر سختافزار.
در همین حال، هر سه ابزار مجموعه قدرتمندی از کنترلها را برای اپراتورهای مراکز داده ارائه میدهند. DCGM پروبهای سطح گره را فراهم میکند، Base Command وظایف کاری را مدیریت میکند، و سرویس جدید آنها را در یک پلتفرم دیداری در سطح ناوگان ادغام میکند که برای استقرار پردازندههای گرافیکی توزیع شده جغرافیایی مقیاسپذیر است.
- کولبات
- آذر 22, 1404
- 34 بازدید






