Cloudflare تایید کرد که یک باگ در سرویس اصلی آن، باعث قطعی گسترده اینترنت در روز سهشنبه شد. این اختلال، که سرویسهایی مانند X و ChatGPT را تحت تاثیر قرار داد، ناشی از یک تغییر پیکربندی روتین در لایه کاهش بات Cloudflare بود که به از کار افتادن آن منجر شد. دین کنشت، مدیر ارشد فناوری Cloudflare، با عذرخواهی عمومی، این حادثه را “غیرقابل قبول” خواند و تاکید کرد که مشکل یک باگ پنهان داخلی بوده و نه یک حمله.
این حادثه که در 18 نوامبر آغاز شد، با استقرار یک راهحل در کمتر از سه ساعت برطرف گردید. این سومین قطعی بزرگ در کمتر از یک ماه است که سرویسهای اصلی اینترنت را تحت تاثیر قرار میدهد، پس از قطعیهای مشابه در AWS و Azure. این رویدادها سوالات مهمی را در مورد پایداری و مدیریت خطا در سرویسهای ابری پرکاربرد مطرح میکنند، زیرا بخش قابل توجهی از اینترنت به این پلتفرمها متکی است.
قطعی اخیر سرویسهای وب آمازون (AWS) که بخش قابل توجهی از اینترنت، بازیها و دستگاههای خانه هوشمند را برای روزها مختل کرد، ناشی از پیکربندی نادرست DNS برای DynamoDB بود. این مشکل که به اشتباه در Route53 منتشر شد، به سایر اجزای AWS مانند EC2 و متعادلکننده بار شبکه سرایت کرده و منجر به اختلالات گسترده خدمات شد. علت فنی این مشکل، یک “شرایط رقابتی” (race condition) در فرآیند اعمال و پاکسازی طرحهای DNS بود که به حذف ناخواسته ورودیهای DNS دیتابیس DynamoDB انجامید.
این حادثه نیاز به مداخله دستی و محدودسازی ایجاد نمونههای EC2 داشت. آمازون برای رفع مشکل، سرویسهای DNS Planner و Enactor را موقتاً متوقف کرده، تستهای جدیدی برای EC2 اضافه نموده و مکانیزمهای کنترلی متعادلکننده بار شبکه را بهبود میبخشد. این رویداد بر پیچیدگی سیستمهای ابری خودکار تأکید کرده و نیاز به برنامهنویسی دقیق و عدم تمرکز قوی برای قابلیت اطمینان زیرساخت ابری سازمانی را برجسته میسازد.