Процедура реагирования в случае единичного отказа накопителя

Симптомы

  • В консоли “Р-Хранилище” в разделе “Серверы” выводится сообщение о наличии проблем с одним из серверов.
  • В консоли “Р-Хранилище” в разделе “Оповещение” выводится сообщение о наличии сбойного накопителя.
  • Снижение производительности ввода-вывода
  • Индикация на лицевой панели сервера свидетельствует о сбое жесткого диска;

Причины

  • Жесткие диски и твердотельные накопители подвержены естественному износу и периодически могут выходить из строя в виду исчерпания ресурса или производственного брака;
  • Диск был ошибочно извлечен во время проведения запланированного обслуживания;

Влияние на доступность сервисов

  • В случае единичного отказа влияние на доступность сервисов не происходит;
  • При выходе из строя жесткого диска снижается общая надежность системы и в некоторых случаях одновременный выход из строя второго накопителя может приводить к потере данных;

План реагирования

  • Открыть консоль веб администрирования Р-Хранилище;

  • Перейти в раздел “Серверы” и выбрать сервер, на котором произошел сбой диска;

  • Выбрать сервер на котором произошла поломка, данный сервер отмечен знаком предупреждения;

  • Открыть раздел управления дисками, нажав на заголовок плитки “ДИСКИ;

  • В разделе управления дисками сервера определить роль диска который вышел из строя по значению в столбце “Статус”.

В зависимости от роли вышедшего из строя накопителя необходимо руководствоваться одним из следующих планов реагирования.

Отказавшие диски Хранилища

  • Выбрать отказавший диск с ролью Хранилище из списка и нажмите кнопку “Освободить” в правой части окна;

  • Отметить режим “Принудительное освобождение” и нажать кнопку “ОК”;

  • После высвобождения диска система произведет автоматическую балансировку блоков данных для восстановления требуемого уровня отказоустойчивости, если это возможно. Таким образом надежность системы, если это возможно, позволит избежать потери данных в случае выхода из строя еще одного накопителя.
  • Подключиться к консоли одного из серверов и проверить состояние процесса восстановления, путем вызова команды vstorage -c %CLUSTER_NAME% top, где %CLUSTER_NAME% - имя кластера. После запуска команды top нажать на клавиатуре клавишу v для отображения подробной информации о ходе репликации.

Проверить ход репликации в поле Repl IO. По завершении процесса восстановления отказоустойчивости статус кластера должен перейти в состояние OK, процесс репликации должен завершиться.

Отказавшие диски Кэша

При неисправности SSD-диска, используемого для хранения кэша, произойдет отказ всех дисков хранилища, у которых есть журналы на данном SSD-диске. Кластер будет продолжать функционировать и создавать реплики, чтобы восполнить потери.

Удалите все отказавшие диски хранения как описано выше в соответствующем разделе.

Отказавшие диски Метаданных

В случае отказа диска метаданных реагирование по снижению воздействия на инфраструктуру невозможно. Необходимо переходить к процедуре восстановления целевого состояния системы.