meta data for this page
Процедура реагирования в случае единичного отказа аппаратного компонента сервера
Большинство компонентов сервера, которые подвержены частому выходу из строя или износу задублировано, поэтому выход из строя таких компонентов обычно не приводит к остановке работы сервера целиком и позволяет продолжить, возможно со снижением производительности, функционирование сервера до полного устранения неисправности. К задублированным компонентам сервера относятся:
- Блок питания;
- Модуль оперативной памяти;
- Вентилятор охлаждения;
- Загрузочный диск;
- Диск для хранения данных;
- Модуль SFP;
- Сетевой порт;
В зависимости от конфигурации сервера указанные компоненты могут быть не задублированы, что приведет к остановке работы сервера в случае сбоя.
Симптомы
- Аварийная индикация в консоли управления сервером IPMI о сбое;
- Аварийная индикация на лицевой или тыльной стороне сервера;
- Индикация о сбое диска в интерфейсе Р-Хранилище;
- Снижение производительности одного из серверов;
- Повышенный уровень шума, воздушного потока, тепловыделения сервера;
Причины
- Не соблюдение условий транспортировки и хранения оборудования;
- Несоблюдение условий эксплуатации:
- Слишком низкая или слишком высокая температура в помещении;
- Низкая влажность приводящая к образованию статического электричества;
- Высокая влажность, приводящая к разрушению компонентов;
- Повышенная вибрация;
- Запыленность помещения;
- Несоблюдение правил установки и обслуживания оборудования, например отсутствие антистатического заземления при работе с электронными компонентами;
- Производственный брак;
- Некоторые компоненты сервера подвержены естественному износу что приводит к их периодическому выходу из строя даже при соблюдении условий эксплуатации.
Влияние на доступность сервисов
- В случае единичного сбоя зарезервированного компонента сервер продолжит функционирование и предоставление сервиса возможно со снижением производительности;
- Отказоустойчивость сервера будет снижена.
- Сервер может стать недоступен при возникновении повторного сбоя на резервном компоненте.
План реагирования
- Убедиться в работоспособности интерфейса администрирования Р-Управление, Р-Хранилище;
- Убедиться в работоспособности виртуальных машин на сбойном сервере а также их нормальном функционировании, в случае подозрения на нестабильность работы выполнить освобождение сервера от виртуальных машин путем миграции без остановки. Данная процедура описана в соответствующем разделе руководства администратора (см. Перенос виртуальной машины между узлами виртуализации);
- Проверить загрузку сервера виртуализации и достаточность имеющихся ресурсов для выполнения всех виртуальных машин, размещенных на данном сервере. В случае необходимости освободить ресурсы путём переноса работающих виртуальных машин на более свободные серверы виртуализации кластера;