علیبابا کلود با سیستم جدید Aegaeon، مصرف پردازندههای گرافیکی انویدیا برای مدلهای زبان بزرگ (LLM) را ۸۲ درصد کاهش داده است. این سیستم pooling در آزمایشها نشان داد ۲۱۳ پردازنده گرافیکی میتوانند عملکردی معادل ۱۱۹۲ پردازنده داشته باشند. Aegaeon یک زمانبند (scheduler) زمان استنتاج (inference) است که با مجازیسازی دسترسی به پردازنده گرافیکی در سطح توکن، بهرهوری (goodput) سیستم را تا ۹ برابر افزایش میدهد. این دستاورد در بازارهای محدود مانند چین، که عرضه پردازندههای H20 انویدیا محدود است، اهمیت ویژهای دارد.
این بهینهسازی از طریق بستهبندی چندین مدل در هر پردازنده گرافیکی و استفاده از یک autoscaler در سطح توکن برای تخصیص پویا منابع حاصل شده است. این پیشرفت برای سایر ارائهدهندگان خدمات ابری (hyperscalerها) که به دنبال افزایش بهرهوری از منابع محدود شتابدهندههای هوش مصنوعی خود هستند، بسیار جذاب خواهد بود و گامی مهم در کارآمدتر کردن زیرساختهای هوش مصنوعی و پاسخگویی به تقاضای فزاینده برای استنتاج است.
انویدیا، بازیگر اصلی در رونق هوش مصنوعی، قراردادی ۱.۵ میلیارد دلاری با استارتاپ ابری Lambda امضا کرده است تا ۱۸,۰۰۰ پردازنده گرافیکی خود را طی چهار سال اجاره کند. این تراشهها که قبلاً توسط Lambda از انویدیا خریداری شده بودند، اکنون توسط انویدیا برای استفاده مجدد اجاره میشوند. این توافق، شامل اجاره ۱۰,۰۰۰ پردازنده گرافیکی به ارزش ۱.۳ میلیارد دلار و ۸,۰۰۰ تراشه اضافی با ۲۰۰ میلیون دلار است، که انویدیا را به بزرگترین مشتری Lambda تبدیل میکند.
Lambda، استارتاپ ابری تاسیس شده در سال ۲۰۱۲، ظرفیت سرور هوش مصنوعی را به شرکتهایی چون مایکروسافت، آمازون، گوگل، OpenAI و xAI ارائه میدهد. انویدیا قصد دارد از این سرورهای اجارهای برای محققان داخلی خود بهره ببرد، رویکردی مشابه با آمازون و مایکروسافت. این استراتژی برای انویدیا تازگی ندارد؛ این شرکت به طور مداوم از مشتریان خود حمایت میکند. CoreWeave، استارتاپ هوش مصنوعی دیگری، نیز از طریق سرمایهگذاری و قراردادهای مشابه اجاره پردازنده گرافیکی، پشتیبانی قابل توجهی از انویدیا دریافت کرده بود. این رویکرد، تعهد انویدیا به تقویت اکوسیستم هوش مصنوعی و تضمین استفاده گسترده از تراشههای خود را نشان میدهد.