meta data for this page
2022-12-11 Какими качествами должно обладать хорошее руководство аварийного восстановления?
Данный документ регламентирует порядок действий которые должен предпринять персонал в процессе возникновения проблемы для снижения последствий в краткосрочной перспективе и возможно включать в себя план по восстановлению целевого состояния системы.
Процесс восстановления в случае аварии должен опираться на используемые в текущем решении технологии обеспечения отказоустойчивости и высокой доступности. Например если речь идет о дисковой подсистеме то в состав данных технологий будут входить:
- RAID массив для защиты от выхода из строя дисков;
- Дублирование основных компонентов, отвечающих за предоставление доступа к данным;
- Дублирование каналов связи до клиента;
- Мгновенные снимки для защиты от изменений;
- Удаленная репликация для защиты от аппаратного сбоя;
- Резервирование площадки путем создания метрокластера;
За счет описанных выше технологий достигается достаточно высокий уровень надёжности подсистемы в целом, например производитель систем хранения данных уровня HiEnd - Hitachi Vantara заявляет что СХД VSP способны обеспечить 100% доступность данных (при построении территориально распределенных решений), а большинство производителей СХД среднего уровня прогнозирует отказоустойчивость своих систем на уровне “пять девяток”
Доступность % | Время простоя в год | Время простоя в месяц | Время простоя в неделю |
---|---|---|---|
90% (“одна девятка”) | 36.5 дней | 72 часов | 16.8 часов |
95% | 18.25 дней | 36 часов | 8.4 часов |
98% | 7.30 дней | 14.4 часов | 3.36 часов |
99% (“две девятки”) | 3.65 дней | 7.20 часов | 1.68 часов |
99.5% | 1.83 дней | 3.60 часов | 50.4 минут |
99.8% | 17.52 часов | 86.23 минут | 20.16 минут |
99.9% (“три девятки”) | 8.76 часов | 43.2 минут | 10.1 минут |
99.95% | 4.38 часов | 21.56 минут | 5.04 минут |
99.99% (“четыре девятки”) | 52.56 минут | 4.32 минут | 1.01 минут |
99.999% (“пять девяток”) | 5.26 минут | 25.9 секунд | 6.05 секунд |
99.9999% (“шесть девяток”) | 31.5 секунд | 2.59 секунд | 0.605 секунд |
Если мы касаемся технологий восстановления в случае аварии на площадке с учетом потери площадки целиком то приблизительное время восстановления напрямую зависит от применяемых технологий и уровня автоматизации.
- Метрокластер - минуты;
- Кластер с ручным переключением (напр. VMware SRM) - часы;
- Репликация данных без кластера - дни;
Руководство аварийного восстановления должно в первую очередь служить цели регламентирования действий в случае обнаружения аварии и первичном реагировании для скорейшего восстановления работоспособности системы и строиться на базе используемых в проекте технологий обеспечения высокой доступности. С целью составления такого плана необходимо составить список технологий, которые обеспечивают высокую доступность и по каждой из них подготовить план действий в случае обнаружения аварии. Вторым методом можно предложить подход, основанный на анализе рисков. Необходимо составить перечень возможных аварийных ситуаций которые могут произойти с проектируемой системой и по каждой из них подготовить план действий по снижению последствий т.е. план реагирования. Стоит ли готовить планы реагирования на безвыходные ситуации, например выход единственной площадки из строя - вопрос открытый.
Качественное руководство должно включать в себя не только описание действий в момент аварии но и список операций для восстановления системы в исходное состояние. Например если мы говорим о репликации на уровне дискового массива - в списке действий во время аварии будут:
- Приостановка репликационной пары;
- Включение доступа на запись для slave тома;
- Монтирование slave тома в ОС;
- Запуск систем;
После устранения последствий аварии и в данном примере после восстановления исходной системы хранения важно выполнить все операции в нужном порядке. Например если просто включить репликацию - система которая была главной до сбоя уничтожит все наработанные данные на резервной площадке. Поэтому например план восстановления в исходное состояние будет включать:
- Разворот репликационной пары;
- Ожидание полной синхронизации изменений на основную площадку;
- Начало окна простоя;
- Остановка сервисов на резервной площадке;
- Разворот репликационной пары в оригинальном направлении;
- Запуск сервисов на основной плоащке;
- Конец окна простоя.
Последовательность действий по восстановлению к исходному состоянию является не менее важной процедурой в плане аварийного восстановления и в отличие от плана аварийного реагирования на сбой должна присутствовать для каждого проектируемого сбоя.