Nvidia RTX 5090 reset bug prompts $1,000 reward for a fix — cards become completely unresponsive and require a reboot after virtualization reset bug, also impacts RTX PRO 6000 | Tom's Hardware

باگ ریست کارت‌های Nvidia RTX 5090 باعث ارائه پاداش ۱۰۰۰ دلاری برای رفع آن شد

گزارش شده است که پردازنده‌های گرافیکی جدید RTX 5090 و RTX PRO 6000 انویدیا با یک باگ قابل تکرار در ریست مجازی‌سازی دست و پنجه نرم می‌کنند که می‌تواند کارت‌ها را تا زمانی که سیستم میزبان به صورت فیزیکی راه‌اندازی مجدد شود، کاملاً از کار بیندازد.

CloudRift، یک ارائه‌دهنده خدمات ابری GPU، یک تحلیل دقیق از این مشکل را پس از مواجهه با آن در چندین سیستم مجهز به Blackwell در حال تولید، منتشر کرد. این شرکت حتی یک پاداش عمومی ۱۰۰۰ دلاری برای هر کسی که بتواند راه‌حل یا علت اصلی را شناسایی کند، تعیین کرده است.

باگ ریست، Blackwell را از کار می‌اندازد

بر اساس گزارش‌های CloudRift، این باگ پس از عبور یک GPU به یک ماشین مجازی با استفاده از KVM و VFIO رخ می‌دهد. هنگام خاموش شدن مهمان یا تخصیص مجدد GPU، میزبان یک ریست سطح عملکرد PCIe (FLR) صادر می‌کند که بخشی استاندارد از پاکسازی یک دستگاه passthrough است. اما به جای بازگشت به حالت سالم شناخته شده، GPU از پاسخگویی باز می‌ماند: هسته گزارش می‌دهد که “پس از FLR، ۶۵۵۳۵ میلی‌ثانیه آماده نیست؛ تسلیم می‌شود.”

An RTX 5090 that caught fire and also left burnt marks on the motherboard, AIO cooler and RAM GeForce RTX 5090D EVGA tape on gold finger

در این مرحله، کارت برای lspci نیز غیرقابل خواندن می‌شود و خطاهای “unknown header type 7f” را نشان می‌دهد. CloudRift اشاره می‌کند که تنها راه برای بازگرداندن عملکرد عادی، خاموش و روشن کردن کامل دستگاه است. Tiny Corp، استارتاپ هوش مصنوعی پشت tinygrad، با بازنشر یافته‌های CloudRift در X.com با این سوال صریح توجه را به این موضوع جلب کرد: “آیا 5090 و RTX PRO 6000 نقص سخت‌افزاری دارند؟ ما این موضوع را بررسی کرده‌ایم و نتوانسته‌ایم راه‌حلی پیدا کنیم.”

سایر کاربران نیز خرابی‌های مشابه را تأیید می‌کنند

بحث‌ها در انجمن‌های Proxmox و جامعه Level1Techs نشان می‌دهد که کاربران خانگی و دیگر پذیرندگان اولیه RTX 5090 نیز با رفتارهای مشابهی مواجه هستند.

در یک مورد، یک کاربر گزارش داد که پس از خاموش شدن یک مهمان ویندوز، میزبان کاملاً از کار افتاده است و GPU حتی پس از راه‌اندازی مجدد در سطح سیستم عامل نیز نتوانسته دوباره راه‌اندازی شود. در مورد دیگری، یک کاربر گفت: “متوجه شدم که میزبان من از کار افتاده است. اشکال‌زدایی بیشتر نشان می‌دهد که CPU میزبان پس از یک مهلت زمانی FLO، که پس از خاموش شدن LinuxVM است، دچار قفل نرم‌افزاری [sic] شده است. هیچ مشکلی برای 4080 قبلی من وجود نداشت.”

چندین کاربر تأیید می‌کنند که تغییر تنظیمات PCIe ASPM یا ACS این مشکل را کاهش نمی‌دهد. هیچ مشکلی با کارت‌های قدیمی‌تر مانند RTX 4090 گزارش نشده است، که نشان می‌دهد این باگ ممکن است محدود به خانواده Blackwell انویدیا باشد.

FLR یک ویژگی حیاتی در پیکربندی‌های GPU passthrough است که به یک دستگاه اجازه می‌دهد تا به طور ایمن بین مهمان‌ها ریست و دوباره تخصیص داده شود. اگر FLR غیرقابل اعتماد باشد، آنگاه بارهای کاری هوش مصنوعی چند مستأجره و تنظیمات آزمایشگاه خانگی با استفاده از مجازی‌سازی، پرخطر می‌شوند، به ویژه زمانی که خرابی یک کارت واحد کل میزبان را از کار می‌اندازد.

انویدیا هنوز به طور رسمی این مشکل را تأیید نکرده است و در زمان نگارش این مطلب، هیچ راه‌حل شناخته شده‌ای وجود ندارد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

جستجو در سایت

سبد خرید

درحال بارگذاری ...
بستن
مقایسه
مقایسه محصولات
لیست مقایسه محصولات شما خالی می باشد!