Table of Contents

Процедура реагирования в случае отказа узла гиперконвергенции

Симптомы

Причины

Влияние на доступность сервисов

Последствия со стороны подсистемы виртуализации:

Последствия со стороны подсистемы хранения данных:

План реагирования

  1. Убедиться в доступности сервисов;
  2. Проверить доступность интерфейсов веб администрирования “Р-Управление” и “Р-Хранилище”, в случае необходимости восстановить работоспособность контейнеров администрирования, руководствуясь соответствующими разделами данного руководства (см. Процедура реагирования при отказе интерфейса Р-Управление и Процедура реагирования при отказе интерфейса Р-Хранилище)
  3. Проверить исправность кластера хранения данных через интерфейс “Р-Хранилище”. Большинство сервисов метаданных должно функционировать для корректной работы кластера
  4. Убедиться в корректности работы подсистемы виртуализации;
  5. Проверить корректность работы кластера высокой доступности:
    1. Все виртуальные машины кроме исключенных из конфигурации shaman перенесены на свободные узлы кластера. В случае необходимости перенести требуемые виртуальные машины вручную;
    2. Машины которые были запущены на подверженном сбою хосте перезапущены. В случае необходимости запустить необходимые виртуальные машины вручную;
    3. Операционная системы виртуальных машин, которые были перезапущены запустилась, прикладное ПО работает. В случае необходимости восстановить работу виртуальных машин, руководствуясь разделом соответствующим данного руководства (см. Процедура реагирования в случае повреждения данных виртуальной машины);
  6. Выяснить причину сбоя и ожидаемое время восстановления.
  7. Принудительно освободить сбойный сервер из конфигурации системы хранения только при наличии следующих факторов:
    1. Произошел сбой только одного сервера в кластере хранения;
    2. Число узлов в кластере хранения больше трёх;
    3. Большинство сервисов метаданных функционирует на текущий момент;
    4. Срок восстановления работоспособности сервера больше суток;
  8. После удаления сервера из конфигурации кластера будет автоматически произведено изменение конфигурации защиты блоков данных и начнется перестроение с целью восстановления отказоустойчивости данных. Данный процесс возможен только при наличии свободных ресурсов и удовлетворения данных ресурсов требованиям политики хранения. Например хранилище с политикой избыточного кодирования 3+2 и областью отказа “Сервер” не может быть перестроено на количестве серверов меньше пяти.