بایگانی‌های بهینه‌سازی پردازنده‌های گرافیکی انویدیا - کول بایت

علی‌بابا کلود می‌گوید با سیستم جدید pooling خود، مصرف پردازنده‌های گرافیکی هوش مصنوعی انویدیا را ۸۲ درصد کاهش داده است

علی‌بابا کلود با سیستم جدید Aegaeon، مصرف پردازنده‌های گرافیکی انویدیا برای مدل‌های زبان بزرگ (LLM) را ۸۲ درصد کاهش داده است. این سیستم pooling در آزمایش‌ها نشان داد ۲۱۳ پردازنده گرافیکی می‌توانند عملکردی معادل ۱۱۹۲ پردازنده داشته باشند. Aegaeon یک زمان‌بند (scheduler) زمان استنتاج (inference) است که با مجازی‌سازی دسترسی به پردازنده گرافیکی در سطح توکن، بهره‌وری (goodput) سیستم را تا ۹ برابر افزایش می‌دهد. این دستاورد در بازارهای محدود مانند چین، که عرضه پردازنده‌های H20 انویدیا محدود است، اهمیت ویژه‌ای دارد.

این بهینه‌سازی از طریق بسته‌بندی چندین مدل در هر پردازنده گرافیکی و استفاده از یک autoscaler در سطح توکن برای تخصیص پویا منابع حاصل شده است. این پیشرفت برای سایر ارائه‌دهندگان خدمات ابری (hyperscalerها) که به دنبال افزایش بهره‌وری از منابع محدود شتاب‌دهنده‌های هوش مصنوعی خود هستند، بسیار جذاب خواهد بود و گامی مهم در کارآمدتر کردن زیرساخت‌های هوش مصنوعی و پاسخگویی به تقاضای فزاینده برای استنتاج است.