Руководство аварийного восстановления Росплатформа

Возможные сценарии нештатных системы серверной виртуализации

Приоритет	Проблема	Симптомы	Процедура реагирования	Процедура восстановления
5	Сбой операционной системы виртуальной машины	Виртуальная машина не отвечает по сети Виртуальная машина не отвечает в консоли администрирования Гостевые утилиты виртуальной машины не отвечают	vm_os_failure	vm_os_failure
5	Виртуальная машина не загружается	После миграции виртуальная машина не загружает ОС Выводится сообщение в консоли виртуальной машины об отсутсвующем устройстве загрузки Виртуальная машина перезагружается циклически Запускается мастер восстановления загрузки операционной системы Windows	vm_os_boot_failure	vm_os_boot_failure
4	Отказ интерфейса веб-управления	Страница веб управления не загружается Контейнер интерфейса веб управления не запущен Адрес интерфейса веб управления не отвечает на команды `ping`	r-man_webui_failure	r-man_webui_failure
4	Потеря конфигурации виртуальной машины	Виртуальная машина отсутствует в списке В конфигурации виртуальной машины отутсвуют все необходимые виртуальные устройства	vm_config_corrupt	vm_config_corrupt
4	Повреждение данных виртуальной машины	Операционная система ВМ не загружается Файлы внутри ВМ повреждены Регулярные сбои операционной системы ВМ Виртуальная машина не включается	vm_hdd_corrupt	vm_hdd_corrupt
3	Отказ интерфейса управления из коммандной строки	Команды выполняются с ошибками Команды не найдены Отсутствует подключение по SSH к серверу виртуализации	rvirt_cli_failure	rvirt_cli_failure

Возможные сценарии нештатных ситуаций системы хранения данных

Приоритет	Проблема	Симптомы	Процедура реагирования	Процедура восстановления
5	Отказ жесткого диска	Аварийная индикация на диске сервера Индикция о сбое диска в веб интерфейсе управления СХД;	drive_failure	drive_failure
5	Отказ интерфейса веб-управления	Страница веб управления не загружается; Контейнер интерфейса веб управления не запущен; Адрес интерфейса веб управления не отвечает на команды `ping`;	vstor_webui_failure	vstor_webui_failure
4	Отказ порта кластерной сети хранения данных	Индикация о сбое сетевого порта в веб интерфейсе управления СХД;	vstor_net_failure	vstor_net_failure
3	Отказ интерфейса командной строки мониторинга и управления	Команды выполняются с ошибками; Команды не найдены; Отсутствует подключение по SSH к серверу хранения;	vstorage_cli_failure	vstorage_cli_failure

Возможные сценарии нештатных системы вычислительных серверов

Приоритет	Проблема	Симптомы	Процедура реагирования	Процедура восстановления
3	Единичный отказ зарезервированного компонента сервера	Аварийная индикация в консоли управления сервером IPMI о сбое Аварийная индикация на лицевой или тыльной стороне сервера Индикация о сбое диска в интерфейсе Р-Хранилище Снижение производительности одного из серверов Повышенный уровень шума, воздушного потока, тепловыделения сервера	not_fatal_hw_failure	not_fatal_hw_failure
2	Отказ загрузочного устройства сервера	Сервер виртуализации не отвечает на команды `ping` Аварийная индикация в консоли управления сервером IPMI Не удается подключиться к серверу виртуализации по протоколу SSH Сервер не отвечает на команды интерфейса веб управления	fatal_hardware_failure	host_boot_volume_failure
2	Отказ сервера целиком	Аварийная индикация в интерфейсе веб управления виртуализации Сервер виртуализации не отвечает на команды `ping` Аварийная индикация в консоли управления сервером IPMI Не удается подключиться к серверу виртуализации по протоколу SSH Отсутствие физических следов работы сервера: шума, воздушного потока, тепловыделения, энергопотребления	fatal_hardware_failure	fatal_hardware_failure

Процедуры реагирования в случае возникновения внештатных ситуаций

Процедура реагирования в случае единичного отказа накопителя

Симптомы

В консоли “Р-Хранилище” в разделе “Серверы” выводится сообщение о наличии проблем с одним из серверов.
В консоли “Р-Хранилище” в разделе “Оповещение” выводится сообщение о наличии сбойного накопителя.
Снижение производительности ввода-вывода
Индикация на лицевой панели сервера свидетельствует о сбое жесткого диска;

Причины

Жесткие диски и твердотельные накопители подвержены естественному износу и периодически могут выходить из строя в виду исчерпания ресурса или производственного брака;
Диск был ошибочно извлечен во время проведения запланированного обслуживания;

Влияние на доступность сервисов

В случае единичного отказа влияние на доступность сервисов не происходит;
При выходе из строя жесткого диска снижается общая надежность системы и в некоторых случаях одновременный выход из строя второго накопителя может приводить к потере данных;

План реагирования

Открыть консоль веб администрирования Р-Хранилище;

Перейти в раздел “Серверы” и выбрать сервер, на котором произошел сбой диска;

Выбрать сервер на котором произошла поломка, данный сервер отмечен знаком предупреждения;

Открыть раздел управления дисками, нажав на заголовок плитки “ДИСКИ;

В разделе управления дисками сервера определить роль диска который вышел из строя по значению в столбце “Статус”.

В зависимости от роли вышедшего из строя накопителя необходимо руководствоваться одним из следующих планов реагирования.

Отказавшие диски Хранилища

Выбрать отказавший диск с ролью Хранилище из списка и нажмите кнопку “Освободить” в правой части окна;

Отметить режим “Принудительное освобождение” и нажать кнопку “ОК”;

После высвобождения диска система произведет автоматическую балансировку блоков данных для восстановления требуемого уровня отказоустойчивости, если это возможно. Таким образом надежность системы, если это возможно, позволит избежать потери данных в случае выхода из строя еще одного накопителя.
Подключиться к консоли одного из серверов и проверить состояние процесса восстановления, путем вызова команды vstorage -c %CLUSTER_NAME% top, где %CLUSTER_NAME% - имя кластера. После запуска команды top нажать на клавиатуре клавишу v для отображения подробной информации о ходе репликации.

Проверить ход репликации в поле Repl IO. По завершении процесса восстановления отказоустойчивости статус кластера должен перейти в состояние OK, процесс репликации должен завершиться.

Отказавшие диски Кэша

При неисправности SSD-диска, используемого для хранения кэша, произойдет отказ всех дисков хранилища, у которых есть журналы на данном SSD-диске. Кластер будет продолжать функционировать и создавать реплики, чтобы восполнить потери.

Удалите все отказавшие диски хранения как описано выше в соответствующем разделе.

Отказавшие диски Метаданных

В случае отказа диска метаданных реагирование по снижению воздействия на инфраструктуру невозможно. Необходимо переходить к процедуре восстановления целевого состояния системы.