مدیر ارشد فناوری Cloudflare پس از خطایی که بخش بزرگی از اینترنت را از دسترس خارج کرد، عذرخواهی میکند
Cloudflare تایید کرده است که یک باگ در یکی از سرویسهای اصلی آن باعث قطعی گستردهای در روز سهشنبه شد و بخشهای بزرگی از اینترنت را از دسترس خارج کرد و ترافیک سرویسهایی از جمله X، ChatGPT و به طعنه، Downdetector را تحت تاثیر قرار داد. دین کنشت، مدیر ارشد فناوری این شرکت، اندکی پس از بازیابی سرویسها عذرخواهی عمومی منتشر کرد و این حادثه را “غیرقابل قبول” خواند و اختلال را به یک تغییر پیکربندی روتین نسبت داد که باعث از کار افتادن لایه کاهش بات آن شد.
این حادثه تقریباً در ساعت 11:48 UTC در 18 نوامبر آغاز شد و سایت رسمی Cloudflare “کاهش عملکرد داخلی سرویس” را تایید کرد. با گسترش مشکل، کاربران در چندین منطقه نه تنها در دسترسی به وبسایتهای پشتیبانیشده توسط Cloudflare بلکه به سرویسهای Access و WARP آن نیز با مشکل مواجه شدند. این شرکت بعداً یک وابستگی خاص در ابزارهای دفاعی بات خود را به عنوان منبع مشکل شناسایی کرد.
کنشت نوشت: “ما مشتریان و اینترنت گستردهتر را ناامید کردیم.” “یک باگ پنهان در سرویسی که زیربنای قابلیت کاهش بات ما بود، پس از یک تغییر پیکربندی روتین شروع به از کار افتادن کرد. این امر به یک کاهش گسترده در شبکه و سایر سرویسهای ما منجر شد. این یک حمله نبود.”
تا ساعت 14:42 UTC، Cloudflare یک راهحل را پیادهسازی کرده و شروع به بازیابی اجزای آسیبدیده کرد. عملکرد داشبورد، از جمله تجزیه و تحلیل و ثبت خطا، تا بعدازظهر به صورت جزئی کاهش یافته بود زیرا مهندسان خطاهای باقیمانده را نظارت میکردند. تعلیق موقت دسترسی WARP در لندن نیز به عنوان بخشی از فرآیند کاهش مشکل اجرا شد.
پشته کاهش بات Cloudflare، که شامل جریانهای چالش مانند Turnstile و لایههای تایید جاوا اسکریپت است، به صورت درونخطی با ترافیک بسیاری از وبسایتها و APIهای پرطرفدار قرار دارد. از آنجایی که این سیستمها نه تنها برای مسدود کردن عوامل مخرب بلکه برای کنترل دسترسی کاربران قانونی نیز استفاده میشوند، نقص در این لایه میتواند منجر به اختلال گسترده در سرویس شود، حتی زمانی که زیرساخت اصلی CDN یا DNS عملیاتی باقی بماند.
این سومین قطعی بزرگ است که در کمتر از یک ماه سایتهای اصلی را تحت تاثیر قرار میدهد. در ماه اکتبر، بخش بزرگی از منطقه US-East-1 AWS برای بیش از دو ساعت از دسترس خارج شد، که آمازون بعداً آن را به پیکربندی DNS خراب نسبت داد. سپس، تنها چند روز بعد، یک قطعی عظیم Azure مایکروسافت را تحت تاثیر قرار داد.
این حوادث سوالات گستردهتری را در مورد نحوه مدیریت خطاهای سرویس داخلی و جداسازی وابستگیها در مقیاس بزرگ توسط سرویسها و پلتفرمهای پرکاربرد مطرح میکند — تقریباً 19 درصد از اینترنت به Cloudflare متکی است، در حالی که Azure و AWS به ترتیب حدود 24 و 30 درصد از بازار رایانش ابری را به خود اختصاص دادهاند.
- کولبات
- آبان 27, 1404
- 33 بازدید






