Table of Contents

Процедура реагирования в случае единичного отказа аппаратного компонента сервера

Большинство компонентов сервера, которые подвержены частому выходу из строя или износу задублировано, поэтому выход из строя таких компонентов обычно не приводит к остановке работы сервера целиком и позволяет продолжить, возможно со снижением производительности, функционирование сервера до полного устранения неисправности. К задублированным компонентам сервера относятся:

Блок питания;
Модуль оперативной памяти;
Вентилятор охлаждения;
Загрузочный диск;
Диск для хранения данных;
Модуль SFP;
Сетевой порт;

В зависимости от конфигурации сервера указанные компоненты могут быть не задублированы, что приведет к остановке работы сервера в случае сбоя.

Симптомы

Аварийная индикация в консоли управления сервером IPMI о сбое;
Аварийная индикация на лицевой или тыльной стороне сервера;
Индикация о сбое диска в интерфейсе Р-Хранилище;
Снижение производительности одного из серверов;
Повышенный уровень шума, воздушного потока, тепловыделения сервера;

Причины

Не соблюдение условий транспортировки и хранения оборудования;
Несоблюдение условий эксплуатации:
- Слишком низкая или слишком высокая температура в помещении;
- Низкая влажность приводящая к образованию статического электричества;
- Высокая влажность, приводящая к разрушению компонентов;
- Повышенная вибрация;
- Запыленность помещения;
Несоблюдение правил установки и обслуживания оборудования, например отсутствие антистатического заземления при работе с электронными компонентами;
Производственный брак;
Некоторые компоненты сервера подвержены естественному износу что приводит к их периодическому выходу из строя даже при соблюдении условий эксплуатации.

Влияние на доступность сервисов

В случае единичного сбоя зарезервированного компонента сервер продолжит функционирование и предоставление сервиса возможно со снижением производительности;
Отказоустойчивость сервера будет снижена.
Сервер может стать недоступен при возникновении повторного сбоя на резервном компоненте.

План реагирования

Убедиться в работоспособности интерфейса администрирования Р-Управление, Р-Хранилище;
Убедиться в работоспособности виртуальных машин на сбойном сервере а также их нормальном функционировании, в случае подозрения на нестабильность работы выполнить освобождение сервера от виртуальных машин путем миграции без остановки. Данная процедура описана в соответствующем разделе руководства администратора (см. Перенос виртуальной машины между узлами виртуализации);
Проверить загрузку сервера виртуализации и достаточность имеющихся ресурсов для выполнения всех виртуальных машин, размещенных на данном сервере. В случае необходимости освободить ресурсы путём переноса работающих виртуальных машин на более свободные серверы виртуализации кластера;

Tools

menus and quick search

quick search

site status

location indicator

Page Tools

meta data for this page

Процедура реагирования в случае единичного отказа аппаратного компонента сервера

Симптомы

Причины

Влияние на доступность сервисов

План реагирования