Alibaba Cloud says it cut Nvidia AI GPU use by 82% with new pooling system— up to 9x increase in output lets 213 GPUs perform like 1,192 | Tom's Hardware

علی‌بابا کلود می‌گوید با سیستم جدید pooling خود، مصرف پردازنده‌های گرافیکی هوش مصنوعی انویدیا را ۸۲ درصد کاهش داده است

علی‌بابا کلود ادعا می‌کند که سیستم جدید pooling آن به نام Aegaeon، تعداد پردازنده‌های گرافیکی انویدیا مورد نیاز برای سرویس‌دهی به مدل‌های زبان بزرگ را طی یک آزمایش بتا چند ماهه در بازار Model Studio خود، ۸۲ درصد کاهش می‌دهد. این نتیجه که در یک مقاله داوری شده در سمپوزیوم سیستم‌های عامل ACM 2025 (SOSP) در سئول ارائه شد، نشان می‌دهد که ارائه‌دهندگان ابری ممکن است بتوانند ظرفیت استنتاج (inference) بسیار بیشتری را از سیلیکون‌های موجود استخراج کنند، به ویژه در بازارهای محدود مانند چین، جایی که عرضه جدیدترین H20s انویدیا همچنان محدود است.

برخلاف پیشرفت‌های زمان آموزش که به دنبال کیفیت یا سرعت مدل هستند، Aegaeon یک زمان‌بند (scheduler) زمان استنتاج است که برای به حداکثر رساندن بهره‌وری پردازنده‌های گرافیکی در بسیاری از مدل‌ها با تقاضای ناگهانی یا غیرقابل پیش‌بینی طراحی شده است. به جای اختصاص یک شتاب‌دهنده به یک مدل، Aegaeon دسترسی به پردازنده گرافیکی را در سطح توکن مجازی‌سازی می‌کند و به آن اجازه می‌دهد تا برش‌های کوچکی از کار را در یک استخر مشترک زمان‌بندی کند. این بدان معناست که یک H20 می‌تواند به طور همزمان به چندین مدل مختلف سرویس دهد، با “goodput” (خروجی مؤثر) در سطح سیستم که تا نه برابر در مقایسه با سیستم‌های serverless قدیمی‌تر افزایش می‌یابد.

بر اساس این مقاله که نویسندگانی از دانشگاه پکن و بخش زیرساخت علی‌بابا، از جمله مدیر ارشد فناوری (CTO) جینگ‌رن ژو را فهرست می‌کند، این سیستم طی چندین ماه در تولید آزمایش شد. در طول آن دوره، تعداد پردازنده‌های گرافیکی مورد نیاز برای پشتیبانی از ده‌ها مدل زبان بزرگ مختلف (LLM) — با اندازه‌هایی تا ۷۲ میلیارد پارامتر — از ۱۱۹۲ به تنها ۲۱۳ کاهش یافت.

در حالی که این مقاله مشخص نمی‌کند کدام مدل‌ها بیشترین سهم را در این صرفه‌جویی داشته‌اند، گزارش South China Morning Post می‌گوید که آزمایش‌ها با استفاده از Nvidia H20 انجام شده‌اند، یکی از معدود شتاب‌دهنده‌هایی که تحت کنترل‌های صادراتی فعلی ایالات متحده هنوز به طور قانونی برای خریداران چینی در دسترس است.

علی‌بابا می‌گوید این دستاوردها از دو تکنیک اصلی حاصل شده‌اند: بسته‌بندی چندین مدل در هر پردازنده گرافیکی، و استفاده از یک autoscaler در سطح توکن برای تخصیص پویا محاسبات هنگام تولید خروجی، به جای رزرو منابع در سطح درخواست. در بنچمارک‌ها، Aegaeon عملکرد ServerlessLLM و MuxServe را با حاشیه‌هایی از ۱.۵ تا ۹ برابر شکست داد.

اینکه آیا این صرفه‌جویی‌ها در خارج از پشته (stack) علی‌بابا نیز قابل تعمیم هستند، باید دید. مقاله علی‌بابا کلود مشخص نمی‌کند که دقیقاً از چه شبکه ارتباطی (network fabric) در آزمایش بتا استفاده شده است، اما ما می‌دانیم که این شرکت شبکه eRDMA الاستیک خود را ارائه می‌دهد و سابقه ساخت پشته‌های سرویس‌دهی پردازنده گرافیکی بسیار یکپارچه را دارد، که نشان می‌دهد نتایج ممکن است به یک محیط بهینه‌سازی شده و یکپارچه عمودی (vertically integrated) وابسته باشد.

صرف نظر از این، این نتیجه احتمالاً مورد توجه سایر hyperscalerها قرار خواهد گرفت که به دنبال بهره‌برداری بیشتر از ناوگان شتاب‌دهنده‌های کمیاب خود هستند، زیرا تقاضای استنتاج همچنان در حال افزایش است.

Google Preferred Source

ما را در Google News دنبال کنید، یا ما را به عنوان یک منبع ترجیحی اضافه کنید، تا آخرین اخبار، تحلیل‌ها و بررسی‌های ما را در فیدهای خود دریافت کنید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

جستجو در سایت

سبد خرید

درحال بارگذاری ...
بستن
مقایسه
مقایسه محصولات
لیست مقایسه محصولات شما خالی می باشد!