InferenceMax AI benchmark tests software stacks, efficiency, and TCO — vendor-neutral suite runs nightly and tracks performance changes over time | Tom's Hardware

بنچمارک هوش مصنوعی InferenceMax پشته‌های نرم‌افزاری، کارایی و TCO را آزمایش می‌کند

پوشش خبری پیرامون هوش مصنوعی تقریباً همیشه بر معاملاتی تمرکز دارد که صدها میلیارد دلار را جابجا می‌کنند، یا بر آخرین پیشرفت‌های سخت‌افزاری در دنیای GPU یا مراکز داده. با این حال، تلاش‌های بنچمارکینگ تقریباً منحصراً بر سیلیکون متمرکز بوده‌اند، و این همان چیزی است که SemiAnalysis قصد دارد با مجموعه بنچمارکینگ هوش مصنوعی InferenceMax متن‌باز خود به آن بپردازد. این مجموعه کارایی بسیاری از اجزای پشته‌های نرم‌افزاری هوش مصنوعی را در سناریوهای استنتاجی واقعی (زمانی که مدل‌های هوش مصنوعی واقعاً در حال “اجرا” هستند و نه آموزش) اندازه‌گیری می‌کند و نتایج را در داشبورد زنده InferenceMax منتشر می‌کند.

InferenceMax تحت مجوز Apache 2.0 منتشر شده است و عملکرد صدها ترکیب سخت‌افزاری و نرم‌افزاری شتاب‌دهنده هوش مصنوعی را به صورت انتشار مداوم اندازه‌گیری می‌کند و هر شب نتایج جدیدی را با نسخه‌های اخیر نرم‌افزار به دست می‌آورد. همانطور که پروژه بیان می‌کند، بنچمارک‌های موجود در نقاط زمانی ثابتی انجام می‌شوند و لزوماً نشان نمی‌دهند که نسخه‌های فعلی چه قابلیت‌هایی دارند؛ همچنین تکامل (یا حتی پسرفت) پیشرفت‌های نرم‌افزاری را در کل یک پشته هوش مصنوعی با درایورها، کرنل‌ها، فریم‌ورک‌ها، مدل‌ها و سایر اجزا برجسته نمی‌کنند.

این بنچمارک به گونه‌ای طراحی شده است که تا حد امکان بی‌طرف باشد و کاربردهای دنیای واقعی را شبیه‌سازی کند. به جای تمرکز صرف بر عملکرد مطلق، معیارهای InferenceMax سعی می‌کنند به عدد جادویی که پروژه‌ها به آن اهمیت می‌دهند برسند: TCO (هزینه کل مالکیت)، بر حسب دلار در هر میلیون توکن. به عنوان یک ساده‌سازی، “توکن” معیاری برای داده‌های تولید شده توسط هوش مصنوعی است. معیار عملکرد پایه، توکن در ثانیه برای GPU یا کاربر است که هر معیار بسته به تعداد درخواست‌هایی که در هر لحظه ارائه می‌شود، متفاوت است.

نموداری که توان عملیاتی هوش مصنوعی در مقابل تعامل‌پذیری را برجسته می‌کند

بر اساس ضرب‌المثل قدیمی “سریع، بزرگ یا ارزان — دو مورد را انتخاب کنید”، توان عملیاتی بالا (اندازه‌گیری شده بر حسب توکن/ثانیه/GPU)، به معنای استفاده بهینه از GPU، با ارائه خدمات به چندین مشتری به طور همزمان به بهترین وجه به دست می‌آید، زیرا استنتاج LLM بر ضرب ماتریس متکی است که به نوبه خود از دسته‌بندی بسیاری از درخواست‌ها بهره می‌برد. با این حال، ارائه خدمات به بسیاری از درخواست‌ها به طور همزمان، زمانی را که GPU می‌تواند به یک درخواست اختصاص دهد، کاهش می‌دهد، بنابراین دریافت خروجی سریع‌تر (مثلاً در یک مکالمه چت‌بات) به معنای افزایش تعامل‌پذیری (اندازه‌گیری شده بر حسب توکن/ثانیه/کاربر) و کاهش توان عملیاتی است. به عنوان مثال، اگر تا به حال دیده‌اید که ChatGPT طوری پاسخ می‌دهد که انگار لکنت زبان شدیدی دارد، می‌دانید چه اتفاقی می‌افتد وقتی توان عملیاتی در مقابل تعامل‌پذیری بیش از حد بالا تنظیم شود.

همانند هر سناریوی از نوع گلدلاک، تعادل کاملی بین این دو معیار برای یک تنظیمات عمومی وجود دارد. ارقام تنظیمات ایده‌آل در منحنی مرز پارتو (Pareto Frontier Curve) قرار می‌گیرند، یک منطقه خاص در نموداری که توان عملیاتی را در مقابل تعامل‌پذیری ترسیم می‌کند و به راحتی توسط نمودار زیر نشان داده شده است. از آنجایی که GPUها بر اساس هزینه دلار در ساعت هنگام در نظر گرفتن قیمت و مصرف برق (یا هنگام اجاره) خریداری می‌شوند، بهترین GPU برای هر سناریوی خاص لزوماً سریع‌ترین نیست — بلکه کارآمدترین خواهد بود.

نمودار InferenceMax که منحنی مرز پارتو را با جزئیات نشان می‌دهد

InferenceMax اشاره می‌کند که موارد با تعامل‌پذیری بالا گران‌تر از موارد با توان عملیاتی بالا هستند، اگرچه به طور بالقوه سودآورترند، زیرا به طور همزمان به کاربران بیشتری خدمات می‌دهند. بنابراین، تنها معیار واقعی برای ارائه‌دهندگان خدمات، TCO است که بر حسب دلار در هر میلیون توکن اندازه‌گیری می‌شود. InferenceMax تلاش می‌کند این رقم را برای سناریوهای مختلف، از جمله خرید و مالکیت GPU در مقابل اجاره آن‌ها، تخمین بزند.

توجه به این نکته مهم است که صرفاً نگاه کردن به نمودارهای عملکرد برای یک GPU مشخص به همراه پشته نرم‌افزاری مرتبط با آن، تصویر خوبی از بهترین گزینه به شما نمی‌دهد، اگر تمام معیارها و سناریوی استفاده مورد نظر در نظر گرفته نشوند. علاوه بر این، InferenceMax باید نشان دهد که چگونه تغییرات در پشته نرم‌افزاری، به جای تراشه‌ها، بر تمام معیارهای فوق و در نتیجه TCO تأثیر می‌گذارد.

به عنوان مثال‌های عملی، InferenceMax اشاره می‌کند که MI335X شرکت AMD در TCO واقعاً با B200 بزرگ انویدیا رقابتی است، حتی با وجود اینکه دومی بسیار سریع‌تر است. از سوی دیگر، به نظر می‌رسد کرنل‌های FP4 (فرمت ممیز شناور 4 بیتی) AMD جای بهبود دارند، زیرا سناریوها/مدل‌هایی که به این محاسبات وابسته هستند، عمدتاً در حوزه تراشه‌های انویدیا قرار دارند.

برای انتشار نسخه 1.0 خود، InferenceMax ترکیبی از شتاب‌دهنده‌های GB200، NVL72، B200، H200 و H100 انویدیا، و همچنین Instinct MI355X، MI325X و MI300X شرکت AMD را پشتیبانی می‌کند. این پروژه اشاره می‌کند که انتظار دارد در ماه‌های آینده پشتیبانی از واحدهای Tensor گوگل و AWS Trainium را اضافه کند. بنچمارک‌ها هر شب از طریق GitHub’s action runners اجرا می‌شوند. از هر دو شرکت AMD و Nvidia مجموعه‌های پیکربندی واقعی برای GPUها و پشته نرم‌افزاری درخواست شد، زیرا اینها را می‌توان به هزاران روش مختلف تنظیم کرد.

در مورد همکاری با فروشندگان، InferenceMax از بسیاری از افراد در سراسر فروشندگان اصلی و چندین ارائه‌دهنده میزبانی ابری که با این پروژه همکاری کردند، تشکر می‌کند، برخی حتی اشکالات را یک شبه برطرف کردند. این پروژه همچنین چندین اشکال را در تنظیمات انویدیا و AMD کشف کرد که نشان‌دهنده سرعت بالای توسعه و استقرار تنظیمات شتاب‌دهنده هوش مصنوعی است.

این همکاری منجر به پچ‌هایی برای ROCm شرکت AMD (معادل CUDA انویدیا) شد، و InferenceMax اشاره کرد که AMD باید بر ارائه پیکربندی‌های پیش‌فرض بهتر به کاربران خود تمرکز کند، زیرا گزارش شده است که پارامترهای زیادی برای تنظیم جهت دستیابی به عملکرد بهینه وجود دارد. در سمت انویدیا، این پروژه با درایورهای تازه منتشر شده Blackwell با مشکلاتی روبرو شد و در سناریوهای بنچمارکینگ که نمونه‌ها را به سرعت بالا و پایین می‌آوردند، مشکلاتی در مورد مقداردهی اولیه/پایان یافت که آشکار شد.

اگر علاقه بیشتری به این حوزه دارید، باید اعلامیه و گزارش InferenceMax را بخوانید. این یک مطالعه سرگرم‌کننده است و چالش‌های فنی مواجه شده را به شیوه‌ای طنزآمیز شرح می‌دهد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

جستجو در سایت

سبد خرید

درحال بارگذاری ...
بستن
مقایسه
مقایسه محصولات
لیست مقایسه محصولات شما خالی می باشد!