Процедура реагирования в случае единичного отказа аппаратного компонента сервера

Большинство компонентов сервера, которые подвержены частому выходу из строя или износу задублировано, поэтому выход из строя таких компонентов обычно не приводит к остановке работы сервера целиком и позволяет продолжить, возможно со снижением производительности, функционирование сервера до полного устранения неисправности. К задублированным компонентам сервера относятся:

  • Блок питания;
  • Модуль оперативной памяти;
  • Вентилятор охлаждения;
  • Загрузочный диск;
  • Диск для хранения данных;
  • Модуль SFP;
  • Сетевой порт;

В зависимости от конфигурации сервера указанные компоненты могут быть не задублированы, что приведет к остановке работы сервера в случае сбоя.

Симптомы

  • Аварийная индикация в консоли управления сервером IPMI о сбое;
  • Аварийная индикация на лицевой или тыльной стороне сервера;
  • Индикация о сбое диска в интерфейсе Р-Хранилище;
  • Снижение производительности одного из серверов;
  • Повышенный уровень шума, воздушного потока, тепловыделения сервера;

Причины

  • Не соблюдение условий транспортировки и хранения оборудования;
  • Несоблюдение условий эксплуатации:
    • Слишком низкая или слишком высокая температура в помещении;
    • Низкая влажность приводящая к образованию статического электричества;
    • Высокая влажность, приводящая к разрушению компонентов;
    • Повышенная вибрация;
    • Запыленность помещения;
  • Несоблюдение правил установки и обслуживания оборудования, например отсутствие антистатического заземления при работе с электронными компонентами;
  • Производственный брак;
  • Некоторые компоненты сервера подвержены естественному износу что приводит к их периодическому выходу из строя даже при соблюдении условий эксплуатации.

Влияние на доступность сервисов

  • В случае единичного сбоя зарезервированного компонента сервер продолжит функционирование и предоставление сервиса возможно со снижением производительности;
  • Отказоустойчивость сервера будет снижена.
  • Сервер может стать недоступен при возникновении повторного сбоя на резервном компоненте.

План реагирования

  1. Убедиться в работоспособности интерфейса администрирования Р-Управление, Р-Хранилище;
  2. Убедиться в работоспособности виртуальных машин на сбойном сервере а также их нормальном функционировании, в случае подозрения на нестабильность работы выполнить освобождение сервера от виртуальных машин путем миграции без остановки. Данная процедура описана в соответствующем разделе руководства администратора (см. Перенос виртуальной машины между узлами виртуализации);
  3. Проверить загрузку сервера виртуализации и достаточность имеющихся ресурсов для выполнения всех виртуальных машин, размещенных на данном сервере. В случае необходимости освободить ресурсы путём переноса работающих виртуальных машин на более свободные серверы виртуализации кластера;