meta data for this page
Differences
This shows you the differences between two versions of the page.
| blog:2022:12:11 [2022/12/11 20:10] – created mchus | blog:2022:12:11 [2022/12/11 21:53] (current) – mchus | ||
|---|---|---|---|
| Line 1: | Line 1: | ||
| - | ====== 2022-12-11 ====== | + | ====== 2022-12-11 |
| + | Данный документ регламентирует порядок действий которые должен предпринять персонал в процессе возникновения проблемы для снижения последствий в краткосрочной перспективе и возможно включать в себя план по восстановлению целевого состояния системы. | ||
| + | |||
| + | Процесс восстановления в случае аварии должен опираться на используемые в текущем решении технологии обеспечения отказоустойчивости и высокой доступности. Например если речь идет о дисковой подсистеме то в состав данных | ||
| + | * RAID массив для защиты от выхода из строя дисков; | ||
| + | * Дублирование основных компонентов, | ||
| + | * Дублирование каналов связи до клиента; | ||
| + | * Мгновенные снимки для защиты от изменений; | ||
| + | * Удаленная репликация для защиты от аппаратного сбоя; | ||
| + | * Резервирование площадки путем создания метрокластера; | ||
| + | |||
| + | За счет описанных выше технологий достигается достаточно высокий уровень надёжности подсистемы в целом, например производитель систем хранения данных уровня HiEnd - Hitachi Vantara заявляет что СХД VSP способны обеспечить 100% доступность данных (при построении территориально распределенных решений), | ||
| + | |||
| + | ^ Доступность % ^ Время простоя в год | ||
| + | | 90% (“одна девятка”) | ||
| + | | 95% | 18.25 дней | ||
| + | | 98% | 7.30 дней | ||
| + | | 99% (“две девятки”) | ||
| + | | 99.5% | 1.83 дней | ||
| + | | 99.8% | 17.52 часов | ||
| + | | 99.9% (“три девятки”) | ||
| + | | 99.95% | ||
| + | | 99.99% (“четыре девятки”) | ||
| + | | 99.999% (“пять девяток”) | ||
| + | | 99.9999% (“шесть девяток”) | ||
| + | |||
| + | Если мы касаемся технологий восстановления в случае аварии на площадке с учетом потери площадки целиком то приблизительное время восстановления напрямую зависит от применяемых технологий и уровня автоматизации. | ||
| + | - Метрокластер - минуты; | ||
| + | - Кластер с ручным переключением (напр. VMware SRM) - часы; | ||
| + | - Репликация данных без кластера - дни; | ||
| + | |||
| + | Руководство аварийного восстановления должно в первую очередь служить цели регламентирования действий в случае обнаружения аварии и первичном реагировании для скорейшего восстановления работоспособности системы и строиться на базе используемых в проекте технологий обеспечения высокой доступности. | ||
| + | С целью составления такого плана необходимо составить список технологий, | ||
| + | Вторым методом можно предложить подход, | ||
| + | |||
| + | Качественное руководство должно включать в себя не только описание действий в момент аварии но и список операций для восстановления системы в исходное состояние. Например если мы говорим о репликации на уровне дискового массива - в списке действий во время аварии будут: | ||
| + | - Приостановка репликационной пары; | ||
| + | - Включение доступа на запись для slave тома; | ||
| + | - Монтирование slave тома в ОС; | ||
| + | - Запуск систем; | ||
| + | |||
| + | После устранения последствий аварии и в данном примере после восстановления исходной системы хранения важно выполнить все операции в нужном порядке. Например если просто включить репликацию - система которая была главной до сбоя уничтожит все наработанные данные на резервной площадке. Поэтому например план восстановления в исходное состояние будет включать: | ||
| + | - Разворот репликационной пары; | ||
| + | - Ожидание полной синхронизации изменений на основную площадку; | ||
| + | - Начало окна простоя; | ||
| + | - Остановка сервисов на резервной площадке; | ||
| + | - Разворот репликационной пары в оригинальном направлении; | ||
| + | - Запуск сервисов на основной плоащке; | ||
| + | - Конец окна простоя. | ||
| + | |||
| + | Последовательность действий по восстановлению к исходному состоянию является не менее важной процедурой в плане аварийного восстановления и в отличие от плана аварийного реагирования на сбой должна присутствовать для каждого проектируемого сбоя. | ||