EXO Labs فریمورک متنباز EXO را برای اجرای کارآمد مدلهای زبان بزرگ (LLM) روی سختافزارهای ترکیبی معرفی کرده است. این فریمورک بار کاری را بین دستگاههای مختلف توزیع میکند. در یک نمایش، دو سیستم NVIDIA DGX Spark با مک استودیو M3 Ultra اپل ترکیب شدند. این ترکیب از قدرت محاسباتی Spark و پهنای باند بالای مک استودیو بهره میبرد و 2.8 برابر افزایش عملکرد را نشان داده است.
این رویکرد “استنتاج غیرمتمرکز” نام دارد و با تقسیم مراحل LLM (پیشپر کردن برای محاسبات، رمزگشایی برای پهنای باند) بین دستگاهها کار میکند. EXO، اگرچه آزمایشی است، اثبات مفهوم قدرتمندی است که نشان میدهد هوش مصنوعی با کارایی بالا لزوماً نباید در انحصار مراکز داده باشد و با استفاده هوشمندانه از سختافزارهای موجود، دستاوردهای قابل توجهی حاصل میشود.
انویدیا از پردازنده گرافیکی جدید Rubin CPX رونمایی کرد که برای بارهای کاری هوش مصنوعی با زمینه طولانی طراحی شده و بخشی از معماری نوین «استنتاج تفکیکشده» این شرکت است. این رویکرد، وظایف پردازش هوش مصنوعی را بین دو نوع پردازنده گرافیکی تقسیم میکند: Rubin CPX برای فاز محاسباتی فشرده (فاز زمینه) و Rubin استاندارد برای فاز نیازمند پهنای باند حافظه بالا (فاز تولید). این تقسیمبندی بهینهسازی عملکرد برای مدلهای پیچیده هوش مصنوعی را هدف قرار داده است.
Rubin CPX با 30 پتافلاپس NVFP4 و 128 گیگابایت GDDR7 عرضه میشود، در حالی که Rubin استاندارد 50 پتافلاپس FP4 و 288 گیگابایت HBM4 دارد. این پردازندهها در رک Vera Rubin NVL144 CPX انویدیا (عرضه 2026) ادغام خواهند شد. این رک قادر به تولید 8 اگزافلاپس NVFP4 است که 7.5 برابر عملکرد نسل فعلی را بهبود میبخشد و انویدیا پتانسیل درآمدزایی بالایی برای آن پیشبینی میکند.