Приоритет | Проблема | Симптомы | Процедура реагирования | Процедура восстановления |
---|---|---|---|---|
5 | Сбой операционной системы виртуальной машины | Виртуальная машина не отвечает по сети Виртуальная машина не отвечает в консоли администрирования Гостевые утилиты виртуальной машины не отвечают | vm_os_failure | vm_os_failure |
5 | Виртуальная машина не загружается | После миграции виртуальная машина не загружает ОС Выводится сообщение в консоли виртуальной машины об отсутсвующем устройстве загрузки Виртуальная машина перезагружается циклически Запускается мастер восстановления загрузки операционной системы Windows | vm_os_boot_failure | vm_os_boot_failure |
4 | Отказ интерфейса веб-управления | Страница веб управления не загружается Контейнер интерфейса веб управления не запущен Адрес интерфейса веб управления не отвечает на команды ping | r-man_webui_failure | r-man_webui_failure |
4 | Потеря конфигурации виртуальной машины | Виртуальная машина отсутствует в списке В конфигурации виртуальной машины отутсвуют все необходимые виртуальные устройства | vm_config_corrupt | vm_config_corrupt |
4 | Повреждение данных виртуальной машины | Операционная система ВМ не загружается Файлы внутри ВМ повреждены Регулярные сбои операционной системы ВМ Виртуальная машина не включается | vm_hdd_corrupt | vm_hdd_corrupt |
3 | Отказ интерфейса управления из коммандной строки | Команды выполняются с ошибками Команды не найдены Отсутствует подключение по SSH к серверу виртуализации | rvirt_cli_failure | rvirt_cli_failure |
Приоритет | Проблема | Симптомы | Процедура реагирования | Процедура восстановления |
---|---|---|---|---|
5 | Отказ жесткого диска | Аварийная индикация на диске сервера Индикция о сбое диска в веб интерфейсе управления СХД; | drive_failure | drive_failure |
5 | Отказ интерфейса веб-управления | Страница веб управления не загружается; Контейнер интерфейса веб управления не запущен; Адрес интерфейса веб управления не отвечает на команды ping ; | vstor_webui_failure | vstor_webui_failure |
4 | Отказ порта кластерной сети хранения данных | Индикация о сбое сетевого порта в веб интерфейсе управления СХД; | vstor_net_failure | vstor_net_failure |
3 | Отказ интерфейса командной строки мониторинга и управления | Команды выполняются с ошибками; Команды не найдены; Отсутствует подключение по SSH к серверу хранения; | vstorage_cli_failure | vstorage_cli_failure |
Приоритет | Проблема | Симптомы | Процедура реагирования | Процедура восстановления |
---|---|---|---|---|
3 | Единичный отказ зарезервированного компонента сервера | Аварийная индикация в консоли управления сервером IPMI о сбое Аварийная индикация на лицевой или тыльной стороне сервера Индикация о сбое диска в интерфейсе Р-Хранилище Снижение производительности одного из серверов Повышенный уровень шума, воздушного потока, тепловыделения сервера | not_fatal_hw_failure | not_fatal_hw_failure |
2 | Отказ загрузочного устройства сервера | Сервер виртуализации не отвечает на команды ping Аварийная индикация в консоли управления сервером IPMI Не удается подключиться к серверу виртуализации по протоколу SSH Сервер не отвечает на команды интерфейса веб управления | fatal_hardware_failure | host_boot_volume_failure |
2 | Отказ сервера целиком | Аварийная индикация в интерфейсе веб управления виртуализации Сервер виртуализации не отвечает на команды ping Аварийная индикация в консоли управления сервером IPMI Не удается подключиться к серверу виртуализации по протоколу SSH Отсутствие физических следов работы сервера: шума, воздушного потока, тепловыделения, энергопотребления | fatal_hardware_failure | fatal_hardware_failure |
В зависимости от роли вышедшего из строя накопителя необходимо руководствоваться одним из следующих планов реагирования.
vstorage -c %CLUSTER_NAME% top
, где %CLUSTER_NAME% - имя кластера. После запуска команды top нажать на клавиатуре клавишу v
для отображения подробной информации о ходе репликации.
Проверить ход репликации в поле Repl IO
. По завершении процесса восстановления отказоустойчивости статус кластера должен перейти в состояние OK
, процесс репликации должен завершиться.
При неисправности SSD-диска, используемого для хранения кэша, произойдет отказ всех дисков хранилища, у которых есть журналы на данном SSD-диске. Кластер будет продолжать функционировать и создавать реплики, чтобы восполнить потери.
Удалите все отказавшие диски хранения как описано выше в соответствующем разделе.
В случае отказа диска метаданных реагирование по снижению воздействия на инфраструктуру невозможно. Необходимо переходить к процедуре восстановления целевого состояния системы.
ping
;Последствия со стороны подсистемы виртуализации:
Последствия со стороны подсистемы хранения данных:
shaman
перенесены на свободные узлы кластера. В случае необходимости перенести требуемые виртуальные машины вручную;Большинство компонентов сервера, которые подвержены частому выходу из строя или износу задублировано, поэтому выход из строя таких компонентов обычно не приводит к остановке работы сервера целиком и позволяет продолжить, возможно со снижением производительности, функционирование сервера до полного устранения неисправности. К задублированным компонентам сервера относятся:
В зависимости от конфигурации сервера указанные компоненты могут быть не задублированы, что приведет к остановке работы сервера в случае сбоя.
va-mn
интерфейса веб управления не запущен;vzlist -an
, найти сервер на котором выполняется контейнер va-mn
;prlctl restart va-mn
prlctl
;prlsrvctl
;vzlist
В случае отказа интерфейса администрирования с использованием командной строки управление сервером виртуализации более производиться не может. Запущенные ранее виртуальные машины будут находиться во включенном состоянии. Доступность сервисов в данном случае не ограничена. Надежность системы может быть снижена.
shaman
, для этого:cat /mnt/vstorage/vols/datastores/*/*/config.pvs | grep -E "<VmName>|<VmUuid>"
prlctl migrate %SOURCE_HOST%/%UUID% localhost
, где %SOURCE_HOST%
- праметры подключения по протоколу SSH к сбойному серверу в формате: [user[:password]@]server_IP_address_or_hostname[:port]
, %UUID% - UUID машины, полученный на предыдущем шаге.shaman -c %CLUSTERNAME% stat
, где %CLUSTERNAME
- имя кластера Р-Хранилище;cat /mnt/vstorage/vols/datastores/*/*/config.pvs | grep -E "<VmName>|<VmUuid>"
find /vz /mnt -name %UUID%
, где UUID
- UUID виртуальной машины, вида 57b19198-5658-4fa5-9d8c-98b07d03e296
;prlctl register %PATH% --preserve-uuid
, где %PATH% - путь к дирректории с файлами ВМ;prlctl start %UUID%
, где UUID
- UUID виртуальной машины, вида 57b19198-5658-4fa5-9d8c-98b07d03e296
;Если виртуальная машина выключена и не отвечает на сетевые подключения - необходимо сразу переходить к процедуре восстановления.
Повреждение данных виртуальной машины сказывается как минимум на работоспособности прикладного ПО указанной ВМ. В случае если повреждение было вызвано сбоем в системе хранения данных воздействие может быть значительно более широким и затрагивать прочие виртуальные машины кластера хранения.
vstorage -c %CLUSTER_NAME% top
, где %CLUSTER_NAME%
- имя кластера хранения данных. ping
;vstorage
и shaman
выполняются с ошибками или не выполняются совсем;vstorage
и shaman
не найдены;Отказ интерфейса управления и мониторинга через командную строку узла хранения сам по себе не влияет на доступность данных и не приводит к остановке предоставления дискового ресурса или снижению надежности системы, но может свидетельствовать о наличии более серьёзных повреждений, которые тем или иным образом дадут о себе знать в ближайшем времени.
Отказ интерфейса командной строки СХД не требует немедленного реагирования. Администрирование системы хранения данных производится с использованием веб-интерфейса Р-Хранилище. В случае необходимости отслеживания состояния СХД из командной строки необходимо подключиться к другому серверу кластера и провести работы с него.
nmtui
;vstorage-ui
интерфейса веб управления не запущен;vzlist -an
, найти сервер на котором выполняется контейнер vstorage-ui
;prlctl restart vstorage-ui
r:
Процедура восстановления подразумевает анализ состояния системы и устранение неисправности. Если после выполнения указанного шага положительный результат не был достигнут - процесс восстановления продолжается выполнением следующей задачи восстановления.
Описанные ниже процедуры выполняются после выполнения операций “Освобождения”, описанных в процедуре реагирования. Если ни одна из описанных процедур не привела к устранению указанной ошибки необходимо обратиться в службу поддержки для локализации и устранения проблемы.
Данная процедура должна выполняться после доставки сменного накопителя.
В редких случаях возникает проблема когда при замене накопителя с ролью “Хранилище” и при использовании SSD дисков для кэширования файл журнала, используемый для кэширования создается не правильного размера.
В случае возникновения данной проблемы после замены диска объем занятого дискового пространства на дисках SSD распределен не равномерно (см. пример ниже).
При наличии дисбаланса в распределении дисковой емкости SSD необходимо выполнить операцию изменения размера журнала, для этого необходимо подключиться к консоли сервера и выполнить следующие команды:
ls -alh /vstorage/*/journal
vstorage -c %CLUSTER_NAME% configure-cs -r $f -s %SIZE%
, где %CLUSTER_NAME% - имя кластера, %SIZE% объем файла журнала. Объем файла журнала должен быть рассчитан исходя из следующих принципов:
Восстановление выделенного диска с метаданными производится в следующей последовательности:
Если на физическом сервере есть системный диск объемом более 100ГБ, этому диску можно дополнительно назначить роль Метаданные или Хранилище.
В данном случае необходимо предварительно дополнительно выполнить процедуру восстановления в случае отказа загрузочного диска сервера.
При числе серверов в кластере более 5 штук без выделенного диска с метаданными:
При числе серверов в кластере менее 5 штук:
Процедура восстановления после отказа узла гиперконвегренции включает в себя следующие основные шаги:
Для восстановления работоспособности серверной вычислительной системы необходимо руководствоваться следующим планом:
После восстановления аппаратных компонентов сервера, если ОС была повреждена необходимо выполнить процедуру восстановления операционной системы сервера.
Восстановление узла после замены загрузочного диска подразумевает необходимость полной переустановки операционной системы узла виртуализации и подключение данного узла к кластеру системы хранения и интерфейса администрирование “Р-Управление”. В данном случае необходимо руководствоваться следующей последовательностью действий:
После восстановления ОС необходимо выполнить процедуру ввода узла в эксплутатацию.
В случае если узел был выеден из кластера системы хранения данных с целью поддержания кластера в работоспособном состоянии на время ремонта а также в виду необходимости переустановки ОС необходимо проведение процедуры по повторному подключению сервера к системе хранения. В данном случае необходимо руководствоваться следующей последовательностью действий:
Подключиться к командной строке сервера и выполнить следующие настройки:
nmcli con mod id %BOND_NAME% bond.options xmit_hash_policy=layer2+3
, где %BOND_NAME%
- имя сетевого агрегата.hastart -c %RSTOR_CLUSTER_NAME% -n 10.56.110.0/24
, где %RSTOR_CLUSTER_NAME%
- имя кластера системы хранения, 10.56.110.0/24
- подсеть синхронизации системы хранения.В интерфейсе Р-Управление, после добавления сервера необходимо выполнить следующие базовые настройки:
В окне “Изменение настроек хоста для виртуальных сред” необходимо задать следующие параметры:
После выполнения процедур по базовой настройке узла виртуализации и указания параметров хранилища данных в интерфейсе “Р-Управление” необходимо вручную распределить нагрузку виртуальных машин на вводимый в эксплуатацию хост виртуализации.
Для выполнения данной операции необходимо следовать соответствующему разделу руководства администратора Перенос виртуальной машины между узлами виртуализации
Для восстановления узла необходимо подготовить карту настроек оборудования, при необходимости данная информация может быть собрана в интерфейсе “Р-хранилище” и “Р-Виртуализация” с вышедшего из строя сервера. Среди обязательных параметров для переустановки операционной системы находятся следующие:
Восстановление работоспособности сервера в случае выхода из строя загрузочного устройства должно производится согласно руководству администратора серверной подсистемы путем замены устройства или производителем оборудования.
После восстановления сервера необходимо произвести установку системы виртуализации согласно инструкции администратора (см. Руководство по установке дистрибутива системы виртуализации Росплатформа).
При отсутствии необходимых значений во время установки необходимо руководствоваться сущностью вышедшего из строя сервера в интерфейсе “Р-Управление” и “Р-Хранилище”.
При переустановке операционной системы все данные расположенные на дисках сервера более не могут быть использованы. Диски необходимо разметить и заново добавить в кластер системы хранения. Для добавления восстановленного сервера в существующую инфраструктуру виртуализации и кластер хранения необходимо предварительно удалить сущность сбойного сервера в интерфейсе администрирования.
Скорее всего, интерфейс подключения, выбранный по умолчанию, может быть не верным, и гостевая ОС не сможет загружаться, поэтому попробуйте разные варианты подключения диска:
Например виртуальная машина созданная в VMware с SCSI адаптером LSI Logic SAS запускается только с диском в среде Р-виртуализация подключенным по шине IDE.
После запуска операционной системы с зарузочного диска, подключенного по шине IDE необходимо выполнить ряд действий для переключения на более производительный интерфейс VIRTIO. Для этого необходимо:
Идентифицировать, по возможности сбойную деталь и обратиться в сервисную службу поставщика оборудования для заказа соответствующих запчастей. В случае невозможности однозначно идентифицировать сбойный компонент необходимо предоставить в сервисную службу всю требуемую информацию для диагностики неисправности.
К задублированным компонентам сервера относятся:
После получения требуемой запчасти провести работы по замене вышедшего из строя компонента. Инструкции по замене отдельных компонентов приведены в соответствующих разделах руководства администратора серверной подсистемы. Некоторые работы требуют полной остановки сервера на время обслуживания, данные действия должны быть запланированы в рамках окна регламентных работ.
В случае замены диска для хранения данных необходимо дополнительно выполнить процедуру восстановления в интерфейсе Р-Хранилище. Подробное описание действий приведено в соответствующем разделе данного руководства (см. Процедура восстановления в случае единичного отказа накопителя).
Процедура восстановления подразумевает анализ состояния системы, поиск причины возникновения неисправности и её устранение. Если после выполнения указанного шага положительный результат не был достигнут - процесс восстановления продолжается выполнением следующей задачи восстановления.
vzlicview
vzlicload
;va-mn
;prlctl list -i va-mn
;prlctl set va-mn
va-mn
и провести диагностику неисправности операционной системы контейнера, для этого:va-mn
;prlctl enter va-mn
;journalctl -xe
и поиск неисправности контейнера;VM_UUID
идентификатор контейнера va-mn
командой: prlctl backup-list -f --vmtype ct | grep -e 'va-mn' -B1
;prlctl restore <VM_UUID>
;Если ни одна из данных процедур не привела к устранению указанной ошибки необходимо обратиться в службу поддержки для локализации и устранения проблемы.
Процедура восстановления подразумевает анализ состояния системы, поиск причины возникновения неисправности и её устранение. Если после выполнения указанного шага положительный результат не был достигнут - процесс восстановления продолжается выполнением следующей задачи восстановления. Если ни одна из указанных процедур не привела к устранению указанной ошибки необходимо обратиться в службу поддержки для локализации и устранения проблемы.
Необходимо локализовать причину возникновения неисправности, для этого необходимо:
root
;df -h
;journalctl -xe
;dmesg | less
;free -h
;smartctl -a %DEVICE_NAME%
, где %DEVICE_NAME%
имя загрузочного устройства, раздел которого подключен в качестве корневой точки монтирования, вида /dev/sda
;В случае если одна или несколько указанных выше процедур позволили локализовать неисправность её по возможности необходимо устранить используя соответствующие разделы данного руководства а также руководствуясь общими принципами администрирования операционных систем Linux. В случае невозможности устранения неисправности необходимо вывести сервер из эксплуатации и переустановить операционную систему гипервизора.
Процедура восстановления подразумевает анализ состояния системы, поиск причины возникновения неисправности и её устранение. Если после выполнения указанного шага положительный результат не был достигнут - процесс восстановления продолжается выполнением следующей задачи восстановления.
Если ни одна из указанных процедур не привела к устранению указанной ошибки необходимо обратиться в службу поддержки для локализации и устранения проблемы.
В случае если виртуальная машина выполняется, но при этом информация о данной ВМ отсутствует в консоли Р-Управление необходимо выполнить следующие действия:
find /vz /mnt -name %UUID%
, где UUID
- UUID виртуальной машины, вида 57b19198-5658-4fa5-9d8c-98b07d03e296
;config.pvs.backup
в указанной директории;cp ./config.pvs.backup ./config.pvs
;touch ./config.pvs
;cat /mnt/vstorage/vols/datastores/*/*/config.pvs | grep -E "<VmName>|<VmUuid>"
find /vz /mnt -name %UUID%
, где UUID
- UUID виртуальной машины, вида 57b19198-5658-4fa5-9d8c-98b07d03e296
;config.pvs
или резервной копии файла конфигурации с именем config.pvs.backup
в указанной директории;cp ./config.pvs.backup ./config.pvs
;touch ./config.pvs
;Данная процедура восстановления подразумевает наличие подтвержденного факта потери данных внутри виртуальной машины и включает мероприятия направленные на восстановление работоспособности ВМ. Если после выполнения указанного шага положительный результат не был достигнут - процесс восстановления продолжается выполнением следующей задачи восстановления.
prlctl cone %MACHINE_NAME% --name %MACHINE_NAME%.backup
, где %MACHINE_NAME%
- имя виртуальной машины.Если ни одна из указанных процедур не привела к устранению указанной ошибки необходимо обратиться в службу поддержки для локализации и устранения проблемы.
Процедура восстановления подразумевает анализ состояния системы, поиск причины возникновения неисправности и её устранение. Если после выполнения указанного шага положительный результат не был достигнут - процесс восстановления продолжается выполнением следующей задачи восстановления.
Скорее всего, интерфейс подключения, выбранный по умолчанию, может быть не верным, и гостевая ОС не сможет загружаться, поэтому попробуйте разные варианты подключения диска:
Например виртуальная машина созданная в VMware с SCSI адаптером LSI Logic SAS запускается только с диском в среде Р-виртуализация подключенным по шине IDE.
После запуска операционной системы с зарузочного диска, подключенного по шине IDE необходимо выполнить ряд действий для переключения на более производительный интерфейс VIRTIO. Для этого необходимо:
Если ни одна из данных процедур не привела к устранению указанной ошибки необходимо обратиться в службу поддержки для локализации и устранения проблемы.
Процедура восстановления подразумевает анализ состояния системы, поиск причины возникновения неисправности и её устранение. Если после выполнения указанного шага положительный результат не был достигнут - процесс восстановления продолжается выполнением следующей задачи восстановления.
Если ни одна из данных процедур не привела к устранению указанной ошибки необходимо обратиться в службу поддержки для локализации и устранения проблемы.
Выберите виртуальную машину локальный диск которой необходимо восстановить из резервной копии. Виртуальная машина должна быть выключена.
Для доступа к настройкам оборудования виртуальной машины выполните следующие действия:
Подключите созданный загрузочный образ Кибербэкап, для этого:
Дождитесь завершения задачи по подключиния образа и включите виртуальную машину нажав кнопку меню “Использование - Запустить”.
Откройте консоль виртуальной машины, для этого:
В меню загрузочного диска выберите пункт “Cyber Backup” и нажмите на него левой клавишей мыши. Если мышь “не слушается” нажмите F10 и переместите курсор клавишами со стрелками и нажмите клавишу “Enter” вместо левой клавиши мыши.
Окно запуска агента представлено на рисунке ниже.
Для настройки сети выберите раздел “Изменить параметры сети”
Для продолжения операции по восстановлению выберите режим “Управляйте данной машиной локально”.
Для запуска процесса восстановления выберите режим “Восстановление данных”.
Выберите хранилище резервных копий, нажав на ссылку “Требуется” рядом с разделом меню “Выбор данных …”.
Укажите путь к хранилищу резервных копий и нажмите клавишу “Обзор” для проверки ввода.
Введите учетные данные пользователя с правами на чтение.
После появления зеленого указателя рядом со строкой пути - нажмите “ОК” чтобы подтвердить выбор сервера.
Выбрать резервную копию, для этого:
Убедиться что сопоставление восстанавливаемых копий и существующих дисков виртуальной машины прошло успешно и нажать “OK” для запуска процесса восстановления. Следить за ходом процесса восстановления можно на вкладке “ход выполнения”.
Результат восстановления будет отображен на вкладке “Задание”.
Для выхода из загрузочного диска нажмите меню “Действие” и выберите пункт “Выход”.
Нажмите кнопку “Выключить” для выключения виртуальной машины.
Дождитесь выключения виртуальной машины в консоли Р-Виртуализация.
Для доступа к настройкам оборудования виртуальной машины выполните следующие действия:
Отключите загрузочный образ Кибербэкап, для этого:
Процедура восстановления подразумевает анализ состояния системы, поиск причины возникновения неисправности и её устранение. Если после выполнения указанного шага положительный результат не был достигнут - процесс восстановления продолжается выполнением следующей задачи восстановления. Если ни одна из указанных процедур не привела к устранению указанной ошибки необходимо обратиться в службу поддержки для локализации и устранения проблемы.
Необходимо локализовать причину возникновения неисправности, для этого необходимо:
root
;df -h
;journalctl -xe
;dmesg | less
;free -h
;smartctl -a %DEVICE_NAME%
, где %DEVICE_NAME%
имя загрузочного устройства, раздел которого подключен в качестве корневой точки монтирования, вида /dev/sda
;В случае если одна или несколько указанных выше процедур позволили локализовать неисправность её по возможности необходимо устранить используя соответствующие разделы данного руководства а также руководствуясь общими принципами администрирования операционных систем Linux. В случае невозможности устранения неисправности необходимо вывести сервер из эксплуатации и переустановить операционную систему гипервизора.
Процедура восстановления подразумевает анализ состояния системы, поиск причины возникновения неисправности и её устранение. Если после выполнения указанного шага положительный результат не был достигнут - процесс восстановления продолжается выполнением следующей задачи восстановления.
Если ни одна из данных процедур не привела к устранению указанной ошибки необходимо обратиться в службу поддержки для локализации и устранения проблемы.
Проверить состояние порта в консоли сервера виртуализаций командой:
ip a | less
Состояние “Нет носителя” (“NO-CARRIER”) выводится когда сетевой порт сервера не соединен с активным сетевым оборудованием.
nmtui
;ping xxx.xxx.xxx.xxx
где xxx.xxx.xxx.xxx
адрес кластерной сети хранения данных одного из серверов;dmesg | less
с целью поиска и устранения аппаратной неисправности сервера;Процедура восстановления подразумевает анализ состояния системы, поиск причины возникновения неисправности и её устранение. Если после выполнения указанного шага положительный результат не был достигнут - процесс восстановления продолжается выполнением следующей задачи восстановления.
vzlicview
vzlicload
;vstorage-ui
;prlctl list -i vstorage-ui
;prlctl set vstorage-ui
.vstorage-ui
и провести диагностику неисправности операционной системы контейнера, для этого:vstorage-ui
;prlctl enter vstorage-ui
;journalctl -xe
и поиск неисправности контейнера;VM_UUID
идентификатор контейнера vstorage-ui
командой: prlctl backup-list -f --vmtype ct | grep -e 'vstorage-ui' -B1
;prlctl restore <VM_UUID>
;Если ни одна из данных процедур не привела к устранению указанной ошибки необходимо обратиться в службу поддержки для локализации и устранения проблемы.