گزارش اولیه آروان از حمله به سرویس‌های رایانش ابری در دیتاسنتر آسیاتک

گزارش اولیه آروان از حمله به سرویس‌های رایانش ابری در دیتاسنتر آسیاتک

در روزهای پایانی سال ۹۹، زیرساخت پردازش ابری آروان در دیتاسنتر آسیاتک، بزرگ‌ترین مرکز داده کشور، به ‌مدت ۳۰ ساعت خاموش شد. این خاموشی به ‌معنای قطع دسترسی کسب‌وکارهای بسیاری به اطلاعات بود. به‌گفته‌یآروان، حملات گسترده هکری به زیرساخت پردازش ابری در مرکز داده آسیاتک باعث شد دسترسی به این دیتاسنتر برای جلوگیری از آسیب به اطلاعات مشتریان قطع شود.

با گذشت یک هفته از حمله، آروان گزارش اولیه‌ی حمله و روند بازگرداندن سرویس‌های مشتریان رایانش ابری در دیتاسنتر آسیاتک (IR-THR-AT1) را منتشر کرده است. آروان هدف حملات به زیرساخت رایانش ابری خود را تخریب و حذف اطلاعات مشتریان ذکر کرده است و همچنین یادآور شده که «این حملات در فعالیت سایر محصولات آروان شامل DNS، CDN، ویدئو پلتفرم، فضای ذخیره‌سازی ابری، همچنین رایانش ابری در سایر دیتاسنتر‌های ابر آروان اختلالی ایجاد نکرده و در حدود ۱۶ درصد از مشتریان آروان را متأثر کرده است.»

در گزارش آروان می‌خوانیم:

نشانه‌هایی از این حملات در روزهای یک‌شنبه و دوشنبه ۲۴ و ۲۵ اسفند دیده و منجر به بروز اختلالات محدودی شد؛ اما با آغاز حملات گسترده و متفاوت جدید در شامگاه سه‌شنبه و آسیب‌رسانی به دیتای مشتریان در این دیتاسنتر، مجبور به قطع تمام دسترسی‌ها، به‌منظور جلوگیری از پیشروی آسیب‌رسانی شدیم.

از تمام کسب‌وکارهای آسیب‌دیده در این مشکل، عذرخواهی می‌کنیم. آگاهیم که قطعی و اختلال سرویس در پیک ترافیکی شب عید، چه پیامدهایی برای آن‌ها به همراه داشته است و عمیقا بابت این اتفاق متأسفیم.

در فرایند این بحران تلاش کردیم روند بروز مشکل و فرایند حل مسئله را از راه‌های ایمیل، پیامک، سایت و بلاگ، همچنین شبکه‌های اجتماعی ابر آروان به آگاهی کاربران برسانیم.

ابر آروان به ‌علت اینکه همچنان در حال کالبدشکافی (Forensics) ابعاد نفوذ است، امکان به‌اشتراک‌گذاری اطلاعات فنی نوع حمله را ندارد. گزارش فنی نوع حمله پس از پایان فرایند کالبدشکافی با جزئیات کامل منتشر خواهد شد.

حمله چگونه آغاز شد

بر اساس گزارش آروان، در ساعت ۱۱:۳۳ یک‌شنبه ۲۴ اسفند، یک incident روی دو سوییچ در یک VPC در دیتاسنتر IR-THR-AT1 (آسیاتک) ابر آروان مشاهده شد و برآورد اولیه تیم فنی، اشکال سخت‌افزاری بود که با بازیابی سوییچ‌ها مشکل برطرف شد.

اما در ساعت ۴ صبح دوشنبه ۲۵ اسفند، دوباره اختلال روی سوییچ‌های IR-THR-AT1 اتفاق افتاد و به ‌دلیل تکرار الگو، احتمال حمله‌ی سایبری داده شد. در نتیجه، تیم‌های ابر آروان از این زمان تا ساعت ۷ صبح روز بعد، روی موضوع کار کردند و در چند ساعت اول موفق شدند سیستم را به حالت طبیعی برگردانند.

سپس برای جلوگیری از حمله‌ی احتمالی، تغییراتی در شبکه‌ی مدیریتی دیتاسنترهای IR-THR-AT1 و IR-THR-MN1 و NL-AMS-SR1 انجام شد؛ اما کارشناسانی که به دیتاسنتر IR-THR-AT1 اعزام شده بودند به‌ دلیل خستگی، در اعمال تغییرات در شبکه‌ی این دیتاسنتر دچار اشتباه شدند و فقط بخشی از تغییرات را اعمال کردند.

آروان می‌گوید در ساعت ۵:۳۰ عصر سه‌شنبه ۲۶ اسفند، درحالی‌که تیم‌های امنیتی به هر دو دیتاسنتر برای بررسی دقیق اعزام شده بودند، به ‌شکل ناگهانی از طریق همان بخشی از شبکه‌ی مدیریتی که همچنان فعال بود، دیتاسنتر IR-THR-AT1 مورد حمله قرار می‌گیرد. این حملات در ساعت ۸ شب با حجم بسیار بالایی ادامه پیدا می‌کند و تعدادی از سرورهای ذخیره‌سازی و پردازشی با هدف حذف کامل اطلاعات مورد حمله قرار می‌گیرند. در ادامه می‌خوانیم:

با آغاز آسیب‌رسانی به دیتای مشتریان، تمام دسترسی‌ها به این دیتاسنتر قطع شد تا از توسعه‌ی آسیب‌رسانی جلوگیری شود؛ بلافاصله اینترنت و شبکه‌ی مدیریتی، هر دو به ‌شکل کامل قطع و علاوه ‌بر کارشناسان امنیتی، کارشناسان و اعضای تیم فنی به محل دیتاسنتر اعزام می‌شوند تا بدون نیاز به دسترسی از راه دور – که ریسک گسترش یا تکرار حمله را افزایش می‌داد – به بررسی موضوع بپردازند.

آروان از هر داده سه نسخه در سه دیسک در سه سرور نگه‌داری می‌کند؛ اما برخی اطلاعات در هر سه نسخه از دست رفتند

آروان می‌گوید هکر نتوانسته است به دیتای مشتریان ابر آروان دسترسی پیدا کند و با توجه به نوع ذخیره‌سازی اطلاعات در آن لایه، تنها موفق به آسیب زدن به اطلاعات و پاک کردن بخشی از دیتا شده بود. در اینجا ابر آروان توضیح می‌دهد که به‌ منظور حفظ پایداری، از هر داده (آبجکت) سه نسخه‌ی مختلف در سه دیسک متفاوت در داخل سه سرور مختلف نگه‌داری می‌کند تا اگر یک یا چند دیسک یا حتی یک یا چند سرور از دسترس خارج شوند، به داده‌ها آسیبی وارد نشود. اما در حمله‌ی اتفاق‌افتاده، به ‌شکل هم‌زمان تعداد بالایی سرور مورد آسیب قرار گرفتند؛ در نتیجه، علاوه ‌بر حذف حدود ۱۰۰ ترابایت از یک پتابایت اطلاعات این دیتاسنتر، هر سه نسخه‌ی اطلاعات در برخی موارد از دست رفتند.

آروان با تحلیل اولیه برآورد کرده است که از مجموع بیش از ۹۷ درصد اطلاعات، حداقل یک نسخه از اطلاعات وجود دارد؛ اما به ‌دلیل توزیع‌شدگی سه‌ درصد اطلاعات حذف‌شده در تمام کلاستر، زیرساخت ذخیره‌سازی در خطر از دست رفتن کل اطلاعات قرار گرفت. 

فرایند بازگرداندن سرویس‌ها و اطلاعات مشتریان

در ادامه، کمیته‌ی بحرانی تشکیل شد و چهار تیم درصدد حل مشکل و اطلاع‌رسانی برآمدند:

  • تیم یک: مسئول مراقبت از دیتاسنتر IR-THR-MN1 برای پیش‌گیری از اتفاق مشابه
  • تیم دو: کار متمرکز روی استورج دیتاسنتر IR-THR-AT1 برای برگرداندن ۱۰۰ ترابایت اطلاعات و پایدارسازی کلاستر ذخیره‌سازی
  • تیم سه: کار متمرکز روی کل زیرساخت رایانش ابری در IR-THR-AT1 تا به ‌محض رفع اشکال فضای ذخیره‌سازی، سرویس دوباره به مدار برگردد.
  • تیم چهار: مسئول کالبدشکافی (Forensics) و ایمن‌سازی (Hardening)

آروان با پیش‌بینی آسیب به دیتای کاربران و زمان‌بر بودن بازگشت سرویس، از کاربران خواست برنامه Disaster Recovery خود را فعال کنند تا اگر از داده‌های خود نسخه‌ی پشتیبان تهیه کرده‌اند، با استفاده از آن در سایر دیتاسنترهای آروان یا دیگر فراهم‌کنندگان زیرساخت‌، سرویس خود را مجدد راه‌اندازی کنند.

آروان می‌گوید: «به‌رغم تأکید به «پشتیبان‌گیری اطلاعات حیاتی از سوی مشتری» در متن «شروط فنی استفاده از خدمات زیرساخت رایانش ابری آروان»، بسیاری از کاربران با آروان تماس گرفتند و اعلام کردند که نسخه‌ی پشتیبانی در دست ندارند.»

در نهایت دسترسی به اطلاعات در ساعت ۱۰:۳۰ صبح چهارشنبه، پس از حدود ۳۰ ساعت با فیکس ‌کردن و یکپارچه‌سازی داده در سطح کلاستر امکان‌پذیر شد. آروان می‌گوید این نقطه، سخت‌ترین کار تیم آغاز شد؛ چرا که آسیب و اختلال در سه ‌درصد اطلاعات می‌توانست سبب از بین رفتن کل کلاستر و بازیابی ناموفق شود. در نتیجه از این زمان، تیم بر اصلاح یکپارچگی داده متمرکز شد تا کلاستر بالا بیاید.

آروان: در شروط فنی استفاده از خدمات زیرساخت رایانش ابری تأکید کردیم که مشتریان از اطلاعات حیاتی پشتیبان بگیرند

تیم فنی با دو مشکل مواجه بودند: البته اینکه سه ‌درصد دیتای ازدست‌رفته مربوط به سه ‌درصد از مشتریان نبود بلکه اطلاعات تمام مشتریان این دیتاسنتر را شامل می‌شد؛ بنابراین احتمال می‌رفت که بخش ناچیزی از اطلاعات اکثریت مشتریان آسیب ‌دیده باشد. بااین‌حال ممکن بود این بخش ناچیز، با اثرگذاری بر پارتیشن بوت، مانع بالا آمدن ابرک شود یا با ایجاد مشکل در پارتیشن سیستم، کار سیستم‌عامل را با اخلال مواجه کند یا با قرار گرفتن در دیتابیس کاربر، آن را از کارکرد عادی بازدارد.

مشکل دوم آروان این بود که قطع ناگهانی سیستم‌عامل‌ها از استورج، به‌طور کلی سبب افزایش احتمال آسیب‌دیدگی می‌شود. این مشکلات تا ساعت ۴ صبح روز پنج‌شنبه ۲۸ اسفند حل شدند؛ کلاستر بالا آمد و کار تیم‌های دیگر هم تمام شد. سپس، به‌مرور دسترسی مشتریان به سرورهای ابری باز شد.

در اینجا مشکل دیگری پیش آمد؛ چرا که با باز شدن دسترسی به پاپ‌سایت و بررسی دقیق‌تر وضعیت ابرک‌ها، مشخص شد حذف کم‌تر از سه‌ درصد از اطلاعات کل دیتاسنتر، سبب تأثیرگذاری روی بخش گسترده‌ای از سرورهای ابری شده است. آروان می‌گوید:

میزان سکتورهای آسیب‌دیده در Block Storage متصل به ابرک، همچنین نوع فایل‌سیستم‌، سیستم‌عامل و پایگاه‌ داده‌ها سبب می‌شد که سطح آسیب‌پذیری طیف گسترده‌ای داشته باشد. در چنین موقعیتی، هر کدام از سیستم‌عامل‌ها رفتار متفاوتی دارند، از بین سیستم‌عامل‌های ویندوز و نسخ مختلف لینوکس و فایل‌سیستم‌هایشان، برخی ساده‌تر و برخی با سختی بیشتر ریکاوری می‌شوند. هم‌زمان با به‌کارگیری روش‌های بازیابی سیستم‌عامل‌ها، مقاله‌ی آموزشی آن‌ها نیز منتشر می‌شد.

آروان هنوز نمی‌تواند آمار دقیقی از سطح آسیب به ابرک‌ها اعلام کند؛ چرا که بخشی از ابرک‌ها بدون هیچ ‌اقدامی امکان استفاده داشتند، بخش دیگری با Reboot و در نهایت ترمیم boot loader به مرحله‌ی استفاده می‌رسیدند و برخی نیاز به ترمیم فایل‌سیستم یا ریکاوری‌های پیشرفته‌تر دارند.

در ادامه در مورد پاسخ‌گویی ۲۴ ساعته آروان به مشتریان می‌خوانیم: «از ظهر روز چهارشنبه، تمام خطوط تلفنی ابر آروان و تمام ظرفیت تیم پشتیبانی برای پاسخ‌گویی به مشتریان به‌ کار گرفته شده بودند. با بازگشایی دسترسی کاربران در صبح روز پنج‌شنبه، ظرفیت تیم پشتیبانی با حمایت تیم‌های فنی و تیم‌های کوچ ابری، چهار برابر شد.»

کم‌تر از سه‌ درصد از اطلاعات کل دیتاسنتر حذف شدند؛ اما همین مقدار روی بخش زیادی از سرورهای ابری تأثیر گذاشت

مشتریان فعال ابر آروان در دیتاسنتر آسیاتک، حدود ۷۰۰۰ سرور ابری داشتند و از این میان، تعداد ۱۱۰۰ سرور ابری از سوی مشتریان برای بررسی به تیم‌های فنی ابر آروان ارجاع شدند. آروان می‌گوید تاکنون مشکل ۳۰ درصد آن‌ها حل شده است و مابقی همچنان در فرایند حل مسئله قرار دارند.

آروان می‌گوید حجم مشتریانی که تقاضای کمک داشتند به ‌حدی بالا بود که فرایند پاسخ‌گویی و حل مسئله‌ با کندی همراه شد و مشکلات پیش‌آمده در کلاستر نیز در مقاطعی، فرایند بازیابی را متوقف کرد.

پرداخت جبران خسارت به مشتریان

آروان با تصور اینکه کلاستر ذخیره‌سازی در روز پنج‌شنبه ۲۸ اسفند پایدار شده است، محاسبه‌ی مدت‌زمان در دسترس نبودن سرویس را به نسبت هزینه‌ی ماهانه‌‌ی هر یک از مشتریان انجام داد و مبلغ آن را محاسبه و بالاتر از سقف جبران خسارت تعهدشده، به کیف پول کاربران واریز کرد. همچنین مبلغی که در روزهای قطعی از کیف پول کاربران کم شده بود، به حساب آن‌ها برگردانده شد.

علاوه‌بر این‌ها، فضای ذخیره‌سازی ابری تا پایان فروردین ۱۴۰۰ به‌ شکل رایگان در اختیار تمام مشتریان دیتاسنتر IR-THR-AT1 ابر آروان قرار گرفت تا در فرایند پشتیبان‌گیری با مشکل فضای ذخیره‌سازی مواجه نباشند.

البته ابر آروان پس از تجربه‌ی این اتفاق و عدم پشتیبان‌گیری دیتا از سوی تعداد بالایی از مشتریان، در تلاش است مجموعه اقدامات پیشگیرانه‌ای را به ‌منظور سهولت تهیه‌ی نسخه پشتیبان‌ از سوی مشتریان در آینده فراهم کند. بااین‌حال در روزهای بعد، مشخص شد که کلاستر ذخیره‌سازی با مشکلاتی همراه است؛ در نتیجه محاسبه مجدد برای برخی مشتریان، پس از حل مشکل، دوباره انجام خواهد شد.

در روز جمعه ۲۹ اسفند، حجم درخواست تعداد زیادی از کاربران برای درست کردن فایل‌سیستم یا پشتیبان‌گیری دیتا و ریکاور کردن کلاستر ذخیره‌سازی در یک فشار زمانی کوتاه صورت گرفته بود؛ آن هم درحالی‌که کلاستر هم موفق به تهیه‌ی سه نسخه از تمام داده‌ها نشده بود؛ به‌علاوه، برای ساخت ابرک‌های جدید برای انتقال اطلاعات روی آن نیاز به فضای بیشتر بود و در نتیجه باید ظرفیت کلاستری که به‌سختی آسیب‌دیده بود نیز افزایش پیدا می‌کرد. در نتیجه، ۴۰۰ ترابایت استورج به کلاستر اضافه شد.

آروان: ۷۰۰۰ سرور ابری در دیتاسنتر آسیاتک وجود دارد که ۱۱۰۰ مشتری به تیم‌های فنی ارجاع شدند و مشکل ۳۰ درصد آن‌ها حل شده است

آروان می‌گوید تزریق منابع جدید به‌ معنای وزن‌دهی دوباره‌ی دیسک‌ها (Rebalance) است که سبب درگیری شدید زیرساخت و قفل شدن کلاستر می‌شود. به همین دلیل، در روز ۲۹ اسفند، وضعیت‌ بحرانی‌تر شد و تلاش تیم باتجربه و متخصص فنی آروان نتوانست بهبودی در وضعیت کلاستر ایجاد کند. در نتیجه آروان از کمک تیم‌های متخصص آلمانی و ترکی بهره گرفت؛ اما باز هم تأثیر چشم‌گیری در بهبود وضعیت مشاهده نکرد. در این اثنا، فرایند بازیابی سرورهای ابری متوقف شد تا تمام تمرکز روی بهبود زیرساخت گذاشته شود.

روز دوشنبه ۲ فروردین، آروان با شکست تلاش‌های تیم‌های تخصصی مختلف، سعی کرد با Patch کردن مشکل نرم‌افزاری کلاستر و هم‌زمان افزایش منابع، مشکل را حل کند. آروان می‌نویسد:

به‌طور خلاصه می‌توان گفت مشکل اصلی کلاستر ذخیره‌سازی تأثیر تسلسل دو مشکل ReMirroring-Storm و یک Memory Leak در لایه‌‌ی نرم‌افزاری Ceph در شرایط خاص است، این مشکل هم‌افزا سبب به اغما رفتن کلاستر می‌شود. با موفقیت‌آمیز بودن این فرایند، آروان کد اصلاحی را به ‌شکل متن‌ باز منتشر خواهد کرد.

این فرایند برای ریکاوری همچنان در حال انجام است؛ به‌علاوه یک تیم در حال برنامه‌ریزی برای راه‌اندازی کلاستر جدید و انتقال دیتاهای ممکن از کلاستر آسیب‌دیده به کلاستر جدید است. آروان پیش‌بینی می‌کند این روال با توجه به حجم کار زیرساختی، تا پایان هفته‌ی اول فروردین ادامه پیدا کند.

زمانی‌که مشکل کلاستر ذخیره‌سازی حل شود، آروان به مشتریان اطلاع‌رسانی می‌کند تا اقدامات مرتبط با پشتیبان‌گیری را انجام بدهند. ابر آروان می‌گوید مجموعه اقداماتی برای پیش‌گیری از بروز حوادث این‌چنینی در دست انجام دارد که پس از حل مشکل تمام مشتریان و رسیدن به وضعیت پایدار در گزارش تکمیلی، آن‌ها را اطلاع‌رسانی می‌کند.