کلودفلر اعلام کرد spike ناگهانی ترافیک باعث اختلال در چند سرویس شد؛ علت این ترافیک غیرعادی هنوز مشخص نیست و تیم مهندسی در حالت اضطرار در حال بازیابی شبکه است.
امروز سهشنبه مورخه ۲۷ آبانماه ۱۴۰۴ بخشهایی از اینترنت با خطاهای گسترده مواجه شد؛ اختلالی که ریشه آن به یک ترافیک غیرمعمول در شبکه Cloudflare بازمیگردد. این شرکت که یکی از بزرگترین ارائهدهندگان زیرساخت امنیت و عملکرد وب است، تأیید کرد که این افزایش ناگهانی ترافیک از ساعت ۱۱:۲۰ صبح آغاز شده و باعث بروز خطا در چند سرویس زیرساختی شد.
کلودفلر در جریان رفع مشکل، سرویس رمزنگاری Warp را در لندن غیرفعال کرد و تأیید نمود کاربران این سرویس قادر به اتصال نخواهند بود.
با وجود برنامهریزی برای تعمیرات در دیتاسنترهای تاهیتی، لسآنجلس، آتلانتا و سانتیاگو، هنوز مشخص نیست آیا عملیات فنی با این اختلال مرتبط بوده یا خیر. تحلیلگران امنیت سایبری میگویند این اختلال احتمالاً حمله سایبری نیست و اهمیت وابستگی اینترنت به تعداد محدود شرکتهای زیرساختی را نشان میدهد.
مقدمه: نقش کلودفلر در زیرساخت جهانی وب
Cloudflare یکی از مهمترین بازیگران زیرساخت اینترنت است؛ شرکتی که میلیونها وبسایت، API، اپلیکیشن و سرویس آنلاین از آن برای محافظت در برابر حملات DDoS، تسریع عملکرد، مدیریت ترافیک و امنیت لایههفتم استفاده میکنند.
این شرکت از سوی کارشناسان «دروازهبان اینترنت» توصیف میشود، زیرا حجم عظیمی از ترافیک جهان از شبکه آن عبور میکند و کوچکترین اختلال در سرویسهای Cloudflare میتواند اثر زنجیرهای روی هزاران سایت و اپلیکیشن ایجاد کند.
اختلال اخیر بار دیگر نشان داد که زیرساخت اینترنت چقدر به تعداد محدودی ارائهدهنده حیاتی مانند Cloudflare، AWS، Akamai و Google وابسته است.
آغاز اختلال: Spike ناگهانی ترافیک
Cloudflare اعلام کرد که حوالی ساعت ۱۱:۲۰ صبح(به وقت UTC)، افزایش غیرمعمولی از ترافیک وارد یکی از سرویسهای کلیدی شده است.
این افزایش ترافیک باعث ایجاد خطا در بخشی از مسیرهای شبکه و سرویسهای وابسته شد، در حالی که بخش زیادی از سرویسها همچنان فعال باقی ماندند.
سخنگوی Cloudflare در بیانیه رسمی گفت:
«ما شاهد افزایش غیرمعمول ترافیک بودیم که باعث بروز خطا در بخشی از ترافیک عبوری شد. هنوز علت این spike مشخص نیست و همه تیمها در حالت All Hands در حال کار هستند تا ابتدا ترافیک بدون خطا برقرار شود، سپس علت این رفتار را بررسی خواهیم کرد.»
این نوع رفتار در شبکه معمولاً میتواند ناشی از عوامل زیر باشد:
- رفتارهای ناخواسته ناشی از misconfiguration داخلی
- شلوغی ناگهانی ناشی از یک اپلیکیشن بزرگ
- اختلال در مسیرهای شبکه CDN
- مشکلات Routing در یکی از PoPهای جهانی
- رفتار اشتباه یک سرویس مشتری بزرگ
- خطای نرمافزاری در سیستمهای اتوماسیون ترافیک
Cloudflare تأکید کرده هنوز هیچ نشانهای مبنی بر حمله سایبری وجود ندارد.
ریشهیابی اولیه: آیا تعمیرات دیتاسنتر دخیل بود؟
Cloudflare از قبل اطلاع داده بود که روز سهشنبه تعمیرات سختافزاری و شبکهای در چهار دیتاسنتر انجام میشود:
- تاهیتی
- لسآنجلس
- آتلانتا
- سانتیاگو (شیلی)
با این حال، شرکت اعلام کرد مشخص نیست آیا این فعالیتها با اختلال اخیر مرتبط بودهاند یا نه.
در زیرساختهای جهانی، حتی یک misconfiguration کوچک در یک PoP میتواند باعث اثر دومینو روی بخشی از شبکه جهانی شود. اما در این مرحله Cloudflare هیچ ارتباط مستقیم تأیید نکرده است.
اقدام اضطراری: غیرفعالسازی Warp در لندن
برای کنترل خطاها، Cloudflare سرویس Warp را در لندن بهطور موقت غیرفعال کرد.
Warp یک سرویس VPN / Encryption بر پایه Cloudflare 1.1.1.1 است که به کاربران موبایل و دسکتاپ اجازه میدهد ترافیک خود را از مسیر امن و سریع Cloudflare عبور دهند.
Cloudflare اعلام کرد:
«کاربران لندن در تلاش برای استفاده از Warp با مشکل اتصال روبهرو خواهند شد.»
این تصمیم معمولاً زمانی گرفته میشود که یک مسیر شبکه یا نقطه اتصال (POP) در حالت ناپایدار قرار دارد و استفاده از یک سرویس رمزنگاریشده فشار بیشتری بر آن ایجاد میکند.
اهمیت Cloudflare و پیامد اختلال
آلن وودوارد، پژوهشگر مرکز امنیت سایبری دانشگاه ساری، Cloudflare را «بزرگترین شرکتی که احتمالاً نامش را نشنیدهاید» توصیف کرده است.
این شرکت مسئولیتهای مهمی را بر عهده دارد:
- دفاع در برابر حملات DDoS بزرگ
- تسریع load time وبسایتها
- بررسی هویت کاربران واقعی (Bot Management)
- مدیریت ترافیک بینالمللی
- فیلترینگ تهدیدات لایههفتم
- محافظت از APIها و سرویسهای حساس
به همین دلیل، وقتی Cloudflare دچار اختلال میشود، سرعت و دسترسی هزاران وبسایت تحت تأثیر قرار میگیرد.
این وضعیت مشابه اتفاقی است که ماه گذشته در سرویس Amazon Web Services (AWS) رخ داد و باعث اختلال در هزاران سرویس اینترنتی شد.
وودوارد در توضیح اهمیت این حادثه گفت:
«وقتی یکی از این شرکتهای بزرگ دچار مشکل میشود، وابستگی شدید اینترنت به تعداد کمی شرکت فوراً آشکار میشود.»
تحلیل فنی اولیه: چرا احتمال حمله کم است؟
کارشناسان امنیت سایبری میگویند احتمال حمله سایبری بزرگ در این حادثه کم است، زیرا:
- Cloudflare بهطور ذاتی چندین لایه Failover دارد
- طراحی شبکه آن Single Point of Failure ندارد
- در حملات DDoS، معمولاً افزایش الگوی خاص دارد نه "unusual traffic" بدون جهت مشخص
- Cloudflare معمولاً سیگنال حمله را سریع تشخیص میدهد
بنابراین تحلیل اولیه نشان میدهد که این «اسپایک ترافیک» بیشتر یک رویداد غیرعمدی یا خطای داخلی بوده است.
پیامدهای بینالمللی: چرا این اتفاق مهم است؟
این حادثه بار دیگر یک واقعیت مهم را نشان داد:
اینترنت امروز روی تعداد محدودی شرکت بزرگ زیرساختی بنا شده است.
شرکتهایی مانند:
- Cloudflare
- AWS
- Google Cloud
- Akamai
- Fastly
اگر یکی از این شرکتها دچار مشکل شود:
- هزاران وبسایت از کار میافتند
- اپلیکیشنها دچار خطا میشوند
- APIها بهطور زنجیرهای دچار اختلال میشوند
- مراکز پرداخت، داشبوردهای مدیریتی و حتی سرویسهای دولتی آسیب میبینند
این وابستگیِ ساختاری، نقطهضعف مهم اینترنت مدرن است.
وضعیت فعلی: روند بازیابی شبکه
Cloudflare اعلام کرده تیم مهندسی در حالت اضطراری در حال رفع کامل خطاهاست و پس از بازگشت شبکه به حالت پایدار، بررسی علت ریشهای (Root Cause Analysis) آغاز خواهد شد.
این شرکت معمولاً چند ساعت پس از رفع اختلال، گزارش رسمی RCA منتشر میکند که شامل:
- علت اصلی
- تأثیر بر سرویسها
- مناطق آسیبدیده
- زمان قطعی
- اقدامات اصلاحی
- برنامه جلوگیری از رخداد مشابه