مدیر ارشد فناوری Cloudflare پس از خطایی که بخش بزرگی از اینترنت را از دسترس خارج کرد، عذرخواهی می‌کند

Cloudflare تایید کرد که یک باگ در سرویس اصلی آن، باعث قطعی گسترده اینترنت در روز سه‌شنبه شد. این اختلال، که سرویس‌هایی مانند X و ChatGPT را تحت تاثیر قرار داد، ناشی از یک تغییر پیکربندی روتین در لایه کاهش بات Cloudflare بود که به از کار افتادن آن منجر شد. دین کنشت، مدیر ارشد فناوری Cloudflare، با عذرخواهی عمومی، این حادثه را “غیرقابل قبول” خواند و تاکید کرد که مشکل یک باگ پنهان داخلی بوده و نه یک حمله.

این حادثه که در 18 نوامبر آغاز شد، با استقرار یک راه‌حل در کمتر از سه ساعت برطرف گردید. این سومین قطعی بزرگ در کمتر از یک ماه است که سرویس‌های اصلی اینترنت را تحت تاثیر قرار می‌دهد، پس از قطعی‌های مشابه در AWS و Azure. این رویدادها سوالات مهمی را در مورد پایداری و مدیریت خطا در سرویس‌های ابری پرکاربرد مطرح می‌کنند، زیرا بخش قابل توجهی از اینترنت به این پلتفرم‌ها متکی است.

تحلیل پس از قطعی AWS: DNS مقصر اصلی از کار افتادن بخش بزرگی از اینترنت و خدمات برای روزها

قطعی اخیر سرویس‌های وب آمازون (AWS) که بخش قابل توجهی از اینترنت، بازی‌ها و دستگاه‌های خانه هوشمند را برای روزها مختل کرد، ناشی از پیکربندی نادرست DNS برای DynamoDB بود. این مشکل که به اشتباه در Route53 منتشر شد، به سایر اجزای AWS مانند EC2 و متعادل‌کننده بار شبکه سرایت کرده و منجر به اختلالات گسترده خدمات شد. علت فنی این مشکل، یک “شرایط رقابتی” (race condition) در فرآیند اعمال و پاکسازی طرح‌های DNS بود که به حذف ناخواسته ورودی‌های DNS دیتابیس DynamoDB انجامید.

این حادثه نیاز به مداخله دستی و محدودسازی ایجاد نمونه‌های EC2 داشت. آمازون برای رفع مشکل، سرویس‌های DNS Planner و Enactor را موقتاً متوقف کرده، تست‌های جدیدی برای EC2 اضافه نموده و مکانیزم‌های کنترلی متعادل‌کننده بار شبکه را بهبود می‌بخشد. این رویداد بر پیچیدگی سیستم‌های ابری خودکار تأکید کرده و نیاز به برنامه‌نویسی دقیق و عدم تمرکز قوی برای قابلیت اطمینان زیرساخت ابری سازمانی را برجسته می‌سازد.

جستجو در سایت

سبد خرید

درحال بارگذاری ...
بستن
مقایسه
مقایسه محصولات
لیست مقایسه محصولات شما خالی می باشد!