علیبابا کلود میگوید با سیستم جدید pooling خود، مصرف پردازندههای گرافیکی هوش مصنوعی انویدیا را ۸۲ درصد کاهش داده است
علیبابا کلود ادعا میکند که سیستم جدید pooling آن به نام Aegaeon، تعداد پردازندههای گرافیکی انویدیا مورد نیاز برای سرویسدهی به مدلهای زبان بزرگ را طی یک آزمایش بتا چند ماهه در بازار Model Studio خود، ۸۲ درصد کاهش میدهد. این نتیجه که در یک مقاله داوری شده در سمپوزیوم سیستمهای عامل ACM 2025 (SOSP) در سئول ارائه شد، نشان میدهد که ارائهدهندگان ابری ممکن است بتوانند ظرفیت استنتاج (inference) بسیار بیشتری را از سیلیکونهای موجود استخراج کنند، به ویژه در بازارهای محدود مانند چین، جایی که عرضه جدیدترین H20s انویدیا همچنان محدود است.
برخلاف پیشرفتهای زمان آموزش که به دنبال کیفیت یا سرعت مدل هستند، Aegaeon یک زمانبند (scheduler) زمان استنتاج است که برای به حداکثر رساندن بهرهوری پردازندههای گرافیکی در بسیاری از مدلها با تقاضای ناگهانی یا غیرقابل پیشبینی طراحی شده است. به جای اختصاص یک شتابدهنده به یک مدل، Aegaeon دسترسی به پردازنده گرافیکی را در سطح توکن مجازیسازی میکند و به آن اجازه میدهد تا برشهای کوچکی از کار را در یک استخر مشترک زمانبندی کند. این بدان معناست که یک H20 میتواند به طور همزمان به چندین مدل مختلف سرویس دهد، با “goodput” (خروجی مؤثر) در سطح سیستم که تا نه برابر در مقایسه با سیستمهای serverless قدیمیتر افزایش مییابد.
بر اساس این مقاله که نویسندگانی از دانشگاه پکن و بخش زیرساخت علیبابا، از جمله مدیر ارشد فناوری (CTO) جینگرن ژو را فهرست میکند، این سیستم طی چندین ماه در تولید آزمایش شد. در طول آن دوره، تعداد پردازندههای گرافیکی مورد نیاز برای پشتیبانی از دهها مدل زبان بزرگ مختلف (LLM) — با اندازههایی تا ۷۲ میلیارد پارامتر — از ۱۱۹۲ به تنها ۲۱۳ کاهش یافت.
در حالی که این مقاله مشخص نمیکند کدام مدلها بیشترین سهم را در این صرفهجویی داشتهاند، گزارش South China Morning Post میگوید که آزمایشها با استفاده از Nvidia H20 انجام شدهاند، یکی از معدود شتابدهندههایی که تحت کنترلهای صادراتی فعلی ایالات متحده هنوز به طور قانونی برای خریداران چینی در دسترس است.
علیبابا میگوید این دستاوردها از دو تکنیک اصلی حاصل شدهاند: بستهبندی چندین مدل در هر پردازنده گرافیکی، و استفاده از یک autoscaler در سطح توکن برای تخصیص پویا محاسبات هنگام تولید خروجی، به جای رزرو منابع در سطح درخواست. در بنچمارکها، Aegaeon عملکرد ServerlessLLM و MuxServe را با حاشیههایی از ۱.۵ تا ۹ برابر شکست داد.
اینکه آیا این صرفهجوییها در خارج از پشته (stack) علیبابا نیز قابل تعمیم هستند، باید دید. مقاله علیبابا کلود مشخص نمیکند که دقیقاً از چه شبکه ارتباطی (network fabric) در آزمایش بتا استفاده شده است، اما ما میدانیم که این شرکت شبکه eRDMA الاستیک خود را ارائه میدهد و سابقه ساخت پشتههای سرویسدهی پردازنده گرافیکی بسیار یکپارچه را دارد، که نشان میدهد نتایج ممکن است به یک محیط بهینهسازی شده و یکپارچه عمودی (vertically integrated) وابسته باشد.
صرف نظر از این، این نتیجه احتمالاً مورد توجه سایر hyperscalerها قرار خواهد گرفت که به دنبال بهرهبرداری بیشتر از ناوگان شتابدهندههای کمیاب خود هستند، زیرا تقاضای استنتاج همچنان در حال افزایش است.
ما را در Google News دنبال کنید، یا ما را به عنوان یک منبع ترجیحی اضافه کنید، تا آخرین اخبار، تحلیلها و بررسیهای ما را در فیدهای خود دریافت کنید.
- کولبات
- مهر 30, 1404
- 37 بازدید






