meta data for this page
  •  

2022-12-02 Completly Normal Phenomenon

Именно в таком ключе происходит мое общение с вендором последние дни. У нас началась фаза реализации проекта по Росплатформе и как бы я сильно не готовился к внедрению этого продукта - все приготовления оказались недостаточными. Помимо проблем, на которые я описал решения в разделе trouble хочу выделить следующие:

  • При изменении конфигурации СХД хост пропадает из сети управления на несколько секунд на время применения конфигурации. Кластер в это время начинает светиться как новогодняя ёлка варнингами и алярмами.
  • Проигнорированные уведомления (скрытые) в консоли Р-Хранилище “всплывают” по собственному желанию. Кто то после перезагрузки хоста, кто то после манипуляций с дисками.
  • Веб интерфейс Р-Хранилища ругается на убогий функционал встроенного в серверы Lenovo USB-LAN адаптера, который используется контроллером сервера (XCC) для мониторинга состояния ОС.
  • Веб интерфейс Р-Хранилища ругается на отсутствие интернета на хостах;

Сотрудник который был выдан мне в помощь гонял меня по бесполезным заданиям целый день безрезультатно, хотя как я сейчас понимаю, судя по отчетам которые я предварительно для него подготовил должен был написать пачку скриптов которые для моей системы привели бы все в целевое состояние. В итоге я решил проверить самостоятельно все возможные варианты добавления дисков через веб-интерфейс и убедился что автомат распределения нагрузки на SSD диски в моей конфигурации точно сломан и нормального результата не даст.

Вендором была предложена следующая методика восстановления:

  1. Удалить старый журнал созданный не в том месте, командой: ``vstorage -c имякластера configure-cs -r /vstorage/IDчанкСервисаИЛИIDдискаSSDcКЭШ/journal/имяЖурнала -d``
  2. Рассчитать размер журнала по формуле: Полезная емкость SSD (372ГБ) * 0.8 (80%) = 297ГБ / 4(HDD на один SSD диск)=74ГБ
  3. Создать журнал вручную, командой: vstorage -c имя кластера configure-cs -r /vstorage/IDчанкСервиса/cs -a /vstorage/IDдискаSSDcКЭШ/journal/ИмяФайлажурналаСчанкаСервиса -s 75776, где 75776- размер журнала в МБ.

Использовать данную методику я не стал, потому что во первых ее прислали слишком поздно и я уже половину серверов сделал по своему методу с изменением размера журнала, во вторых мне не до конца понятно как формировать строки пути, потому что в оригинале они выглядят как некий UUID и возможно веб интерфейс к этому привязывается. Поэтому я решил нанести минимальный ущерб веб интерфейсу и плавно его подтолкнуть к созданию журнала в нужном месте путем исправления ошибок которые веб интерфейс допускает.

В сухом остатке имеем следующие трудозатраты в рабочих часах:

  • Согласование доступа на площадку - 16 часов;
  • Подготовка плана настроек - 6 часов;
  • Траблшутинг сетевой инфраструктуры заказчика вместе с его сетевиками - 1 час;
  • Базовая установка ОС для 8 серверов с настройкой сети из установщика: 4 часа;
  • Сборка кластера виртуализации - 10 минут;
  • Сборка кластера хранения - 2 часа;
  • Траблшутинг и устранение проблемы с не подключающимися iso образами - 6 часов;
  • Траблшутинг и устранение проблемы с неравномерным использованием дисковой емкости на SSD диска - 32 часа;

Еще раз хочу напомнить ссылку которая сэкономит вам как минимум неделю страданий: trouble :-|