باگ ریست کارتهای Nvidia RTX 5090 باعث ارائه پاداش ۱۰۰۰ دلاری برای رفع آن شد
گزارش شده است که پردازندههای گرافیکی جدید RTX 5090 و RTX PRO 6000 انویدیا با یک باگ قابل تکرار در ریست مجازیسازی دست و پنجه نرم میکنند که میتواند کارتها را تا زمانی که سیستم میزبان به صورت فیزیکی راهاندازی مجدد شود، کاملاً از کار بیندازد.
CloudRift، یک ارائهدهنده خدمات ابری GPU، یک تحلیل دقیق از این مشکل را پس از مواجهه با آن در چندین سیستم مجهز به Blackwell در حال تولید، منتشر کرد. این شرکت حتی یک پاداش عمومی ۱۰۰۰ دلاری برای هر کسی که بتواند راهحل یا علت اصلی را شناسایی کند، تعیین کرده است.
باگ ریست، Blackwell را از کار میاندازد
بر اساس گزارشهای CloudRift، این باگ پس از عبور یک GPU به یک ماشین مجازی با استفاده از KVM و VFIO رخ میدهد. هنگام خاموش شدن مهمان یا تخصیص مجدد GPU، میزبان یک ریست سطح عملکرد PCIe (FLR) صادر میکند که بخشی استاندارد از پاکسازی یک دستگاه passthrough است. اما به جای بازگشت به حالت سالم شناخته شده، GPU از پاسخگویی باز میماند: هسته گزارش میدهد که “پس از FLR، ۶۵۵۳۵ میلیثانیه آماده نیست؛ تسلیم میشود.”
در این مرحله، کارت برای lspci نیز غیرقابل خواندن میشود و خطاهای “unknown header type 7f” را نشان میدهد. CloudRift اشاره میکند که تنها راه برای بازگرداندن عملکرد عادی، خاموش و روشن کردن کامل دستگاه است. Tiny Corp، استارتاپ هوش مصنوعی پشت tinygrad، با بازنشر یافتههای CloudRift در X.com با این سوال صریح توجه را به این موضوع جلب کرد: “آیا 5090 و RTX PRO 6000 نقص سختافزاری دارند؟ ما این موضوع را بررسی کردهایم و نتوانستهایم راهحلی پیدا کنیم.”
سایر کاربران نیز خرابیهای مشابه را تأیید میکنند
بحثها در انجمنهای Proxmox و جامعه Level1Techs نشان میدهد که کاربران خانگی و دیگر پذیرندگان اولیه RTX 5090 نیز با رفتارهای مشابهی مواجه هستند.
در یک مورد، یک کاربر گزارش داد که پس از خاموش شدن یک مهمان ویندوز، میزبان کاملاً از کار افتاده است و GPU حتی پس از راهاندازی مجدد در سطح سیستم عامل نیز نتوانسته دوباره راهاندازی شود. در مورد دیگری، یک کاربر گفت: “متوجه شدم که میزبان من از کار افتاده است. اشکالزدایی بیشتر نشان میدهد که CPU میزبان پس از یک مهلت زمانی FLO، که پس از خاموش شدن LinuxVM است، دچار قفل نرمافزاری [sic] شده است. هیچ مشکلی برای 4080 قبلی من وجود نداشت.”
چندین کاربر تأیید میکنند که تغییر تنظیمات PCIe ASPM یا ACS این مشکل را کاهش نمیدهد. هیچ مشکلی با کارتهای قدیمیتر مانند RTX 4090 گزارش نشده است، که نشان میدهد این باگ ممکن است محدود به خانواده Blackwell انویدیا باشد.
FLR یک ویژگی حیاتی در پیکربندیهای GPU passthrough است که به یک دستگاه اجازه میدهد تا به طور ایمن بین مهمانها ریست و دوباره تخصیص داده شود. اگر FLR غیرقابل اعتماد باشد، آنگاه بارهای کاری هوش مصنوعی چند مستأجره و تنظیمات آزمایشگاه خانگی با استفاده از مجازیسازی، پرخطر میشوند، به ویژه زمانی که خرابی یک کارت واحد کل میزبان را از کار میاندازد.
انویدیا هنوز به طور رسمی این مشکل را تأیید نکرده است و در زمان نگارش این مطلب، هیچ راهحل شناخته شدهای وجود ندارد.
- کولبات
- شهریور 16, 1404
- 38 بازدید






