Процедура реагирования в случае отказа узла гиперконвергенции

Процедура реагирования в случае отказа узла гиперконвергенции

Симптомы

Сервер виртуализации не отвечает на команды;
Не удается изменить конфигурацию сервера виртуализации;
Не удается подключиться к серверу виртуализации по протоколу SSH;
Аварийная индикация в консоли управления сервером IPMI о сбое загрузочного диска;
Аварийная индикация в интерфейсе веб управления виртуализации;
Сервер виртуализации не отвечает на команды ping;
Аварийная индикация в консоли управления сервером IPMI;
Отсутствие физических следов работы сервера: шума, воздушного потока, тепловыделения, энергопотребления;

Причины

Переполнение загрузочного диска сервера;
Применение некорректных настроек в консоли сервера препятствующих загрузке операционной системы гипервизора;
Выход из строя загрузочного диска сервера, вызванный его износом или поломкой;
Выход сервера из строя, вызванный сбоем нерезервированных аппаратных компонентов, например процессора, элементов системной платы, контроллера дисков;
- Компоненты имеют ограниченный ресурс, периодически они могут выходить из строя. Это является нормальным процессом, связанным с износом оборудования.
- Компоненты могут выходить из строя по причине брака при производстве,
- Компоненты могут выходить из строя раньше срока службы при нарушении условий эксплуатации: повышенной запылённости, нарушения температурного режима, повышенных вибраций.
Отключено питание сервера;
Перегрев сервера;

Влияние на доступность сервисов

Последствия со стороны подсистемы виртуализации:

Механизм высокой доступности подсистемы виртуализации автоматически диагностирует отказ сервера и запустит процедуру восстановления виртуальных серверов на другом сервере при наличии свободных реcурсов.
Виртуальные серверы, работавшие на отказавшем сервере, выключатся и в течение нескольких минут автоматически будут перезапущены на свободных серверах. Перезапущенные виртуальные серверы продолжают работать в штатном режиме.
Все виртуальные серверы, выполняемые на других серверах, продолжают работать в штатном режиме.
Отказоустойчивость системы возможно будет снижена.

Последствия со стороны подсистемы хранения данных:

Кластер системы хранения автоматически пометит вышедший из строя сервер как нерабочий. Новые блоки данных на указанный сервер назначаться не будут.
Производительность дисковой подсистемы будет снижена;
Отказоустойчивость дисковой подсистемы будет снижена.

План реагирования

Убедиться в доступности сервисов;
Проверить доступность интерфейсов веб администрирования “Р-Управление” и “Р-Хранилище”, в случае необходимости восстановить работоспособность контейнеров администрирования, руководствуясь соответствующими разделами данного руководства (см. Процедура реагирования при отказе интерфейса Р-Управление и Процедура реагирования при отказе интерфейса Р-Хранилище)
Проверить исправность кластера хранения данных через интерфейс “Р-Хранилище”. Большинство сервисов метаданных должно функционировать для корректной работы кластера
Убедиться в корректности работы подсистемы виртуализации;
Проверить корректность работы кластера высокой доступности:
1. Все виртуальные машины кроме исключенных из конфигурации shaman перенесены на свободные узлы кластера. В случае необходимости перенести требуемые виртуальные машины вручную;
2. Машины которые были запущены на подверженном сбою хосте перезапущены. В случае необходимости запустить необходимые виртуальные машины вручную;
3. Операционная системы виртуальных машин, которые были перезапущены запустилась, прикладное ПО работает. В случае необходимости восстановить работу виртуальных машин, руководствуясь разделом соответствующим данного руководства (см. Процедура реагирования в случае повреждения данных виртуальной машины);
Выяснить причину сбоя и ожидаемое время восстановления.
Принудительно освободить сбойный сервер из конфигурации системы хранения только при наличии следующих факторов:
1. Произошел сбой только одного сервера в кластере хранения;
2. Число узлов в кластере хранения больше трёх;
3. Большинство сервисов метаданных функционирует на текущий момент;
4. Срок восстановления работоспособности сервера больше суток;
После удаления сервера из конфигурации кластера будет автоматически произведено изменение конфигурации защиты блоков данных и начнется перестроение с целью восстановления отказоустойчивости данных. Данный процесс возможен только при наличии свободных ресурсов и удовлетворения данных ресурсов требованиям политики хранения. Например хранилище с политикой избыточного кодирования 3+2 и областью отказа “Сервер” не может быть перестроено на количестве серверов меньше пяти.

Table of Contents

Процедура реагирования в случае отказа узла гиперконвергенции

Симптомы

Причины

Влияние на доступность сервисов

План реагирования