علیبابا کلود با سیستم جدید Aegaeon، مصرف پردازندههای گرافیکی انویدیا برای مدلهای زبان بزرگ (LLM) را ۸۲ درصد کاهش داده است. این سیستم pooling در آزمایشها نشان داد ۲۱۳ پردازنده گرافیکی میتوانند عملکردی معادل ۱۱۹۲ پردازنده داشته باشند. Aegaeon یک زمانبند (scheduler) زمان استنتاج (inference) است که با مجازیسازی دسترسی به پردازنده گرافیکی در سطح توکن، بهرهوری (goodput) سیستم را تا ۹ برابر افزایش میدهد. این دستاورد در بازارهای محدود مانند چین، که عرضه پردازندههای H20 انویدیا محدود است، اهمیت ویژهای دارد.
این بهینهسازی از طریق بستهبندی چندین مدل در هر پردازنده گرافیکی و استفاده از یک autoscaler در سطح توکن برای تخصیص پویا منابع حاصل شده است. این پیشرفت برای سایر ارائهدهندگان خدمات ابری (hyperscalerها) که به دنبال افزایش بهرهوری از منابع محدود شتابدهندههای هوش مصنوعی خود هستند، بسیار جذاب خواهد بود و گامی مهم در کارآمدتر کردن زیرساختهای هوش مصنوعی و پاسخگویی به تقاضای فزاینده برای استنتاج است.
- کولبات
- مهر 30, 1404






