Cloudflare's CTO apologizes after error takes huge chunk of the internet offline — 'we failed our customers and the broader internet' | Tom's Hardware

مدیر ارشد فناوری Cloudflare پس از خطایی که بخش بزرگی از اینترنت را از دسترس خارج کرد، عذرخواهی می‌کند

Cloudflare تایید کرده است که یک باگ در یکی از سرویس‌های اصلی آن باعث قطعی گسترده‌ای در روز سه‌شنبه شد و بخش‌های بزرگی از اینترنت را از دسترس خارج کرد و ترافیک سرویس‌هایی از جمله X، ChatGPT و به طعنه، Downdetector را تحت تاثیر قرار داد. دین کنشت، مدیر ارشد فناوری این شرکت، اندکی پس از بازیابی سرویس‌ها عذرخواهی عمومی منتشر کرد و این حادثه را “غیرقابل قبول” خواند و اختلال را به یک تغییر پیکربندی روتین نسبت داد که باعث از کار افتادن لایه کاهش بات آن شد.

این حادثه تقریباً در ساعت 11:48 UTC در 18 نوامبر آغاز شد و سایت رسمی Cloudflare “کاهش عملکرد داخلی سرویس” را تایید کرد. با گسترش مشکل، کاربران در چندین منطقه نه تنها در دسترسی به وب‌سایت‌های پشتیبانی‌شده توسط Cloudflare بلکه به سرویس‌های Access و WARP آن نیز با مشکل مواجه شدند. این شرکت بعداً یک وابستگی خاص در ابزارهای دفاعی بات خود را به عنوان منبع مشکل شناسایی کرد.

کنشت نوشت: “ما مشتریان و اینترنت گسترده‌تر را ناامید کردیم.” “یک باگ پنهان در سرویسی که زیربنای قابلیت کاهش بات ما بود، پس از یک تغییر پیکربندی روتین شروع به از کار افتادن کرد. این امر به یک کاهش گسترده در شبکه و سایر سرویس‌های ما منجر شد. این یک حمله نبود.”

تا ساعت 14:42 UTC، Cloudflare یک راه‌حل را پیاده‌سازی کرده و شروع به بازیابی اجزای آسیب‌دیده کرد. عملکرد داشبورد، از جمله تجزیه و تحلیل و ثبت خطا، تا بعدازظهر به صورت جزئی کاهش یافته بود زیرا مهندسان خطاهای باقیمانده را نظارت می‌کردند. تعلیق موقت دسترسی WARP در لندن نیز به عنوان بخشی از فرآیند کاهش مشکل اجرا شد.

پشته کاهش بات Cloudflare، که شامل جریان‌های چالش مانند Turnstile و لایه‌های تایید جاوا اسکریپت است، به صورت درون‌خطی با ترافیک بسیاری از وب‌سایت‌ها و APIهای پرطرفدار قرار دارد. از آنجایی که این سیستم‌ها نه تنها برای مسدود کردن عوامل مخرب بلکه برای کنترل دسترسی کاربران قانونی نیز استفاده می‌شوند، نقص در این لایه می‌تواند منجر به اختلال گسترده در سرویس شود، حتی زمانی که زیرساخت اصلی CDN یا DNS عملیاتی باقی بماند.

این سومین قطعی بزرگ است که در کمتر از یک ماه سایت‌های اصلی را تحت تاثیر قرار می‌دهد. در ماه اکتبر، بخش بزرگی از منطقه US-East-1 AWS برای بیش از دو ساعت از دسترس خارج شد، که آمازون بعداً آن را به پیکربندی DNS خراب نسبت داد. سپس، تنها چند روز بعد، یک قطعی عظیم Azure مایکروسافت را تحت تاثیر قرار داد.

این حوادث سوالات گسترده‌تری را در مورد نحوه مدیریت خطاهای سرویس داخلی و جداسازی وابستگی‌ها در مقیاس بزرگ توسط سرویس‌ها و پلتفرم‌های پرکاربرد مطرح می‌کند — تقریباً 19 درصد از اینترنت به Cloudflare متکی است، در حالی که Azure و AWS به ترتیب حدود 24 و 30 درصد از بازار رایانش ابری را به خود اختصاص داده‌اند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

جستجو در سایت

سبد خرید

درحال بارگذاری ...
بستن
مقایسه
مقایسه محصولات
لیست مقایسه محصولات شما خالی می باشد!