25.06.2020
IT Breeze LLC

Нагрузочные испытания при запуске ЦОД — нужны или нет? 

Нагрузочные испытания — достаточно трудоемкий процесс. Зачем проводить их на этапе запуска ЦОД, когда оборудование только установлено и настроено, все новое и по определению рабочее? Попробуем разобраться.

Центр обработки данных — сложное проектное решение. В его создании задействовано много исполнителей, работы на разных этапах часто выполняют разные подрядчики. Плюс — высокая технологическая насыщенность, множество инженерных систем. 

На любом этапе могут возникнуть точки риска:

  • погрешность в проектных расчетах; 
  • отклонение от проекта при строительстве; 
  • завышенные характеристики оборудования, заявленные производителями; 
  • неверно выбранные настройки системы… 

Минимальные отклонения в параметрах могут быть незаметными при запуске и не критичными долгое время, но в какой-то момент проявят себя и приведут к сбоям в работе всего ЦОДа. Почему?

Особенность ЦОДа в том, что у него нет фиксированной нагрузки. К примеру, перерабатывающий завод после выхода на проектную мощность работает относительно равномерно. Но в ЦОД нагрузка на сервера постоянно меняется: то растет, то падает почти до нуля, в зависимости от объема вычислений. Для оборудования загрузка 10% и 90% — это разные режимы работы, в которых оно поведет себя по-разному. 

Поэтому принцип “запустилось и работает — значит, все в порядке” — не состоятелен. Так же как и проверка инженерных систем, выполненная в простых условиях, не имеет смысла. Таким образом нельзя увидеть проблемы, которые возникнут при высоких нагрузках. 

Необходимы специальные испытания. В их ходе с помощью нагрузочных машин создается максимальная нагрузка на системы, замеряется большой комплекс параметров, оценивается качество и стабильность работы.

Как проводятся нагрузочные испытания?

Сначала специалисты испытывают каждую систему по отдельности.

Например, ИБП имеет параметр времени автономной работы. В проекте заложено, что при номинальной загрузке в 1 МВт он должен работать 15 минут — именно столько времени необходимо, чтобы запустился резервный генератор. Если проверять ИБП на меньшей мощности, нельзя узнать, продержится ли он заявленное время при нагрузке в 100%. Производитель мог незначительно завысить показатели, и при отключении электричества ИБП не выполнит своих функций. 

Поэтому важно провести испытания, создав максимальную нагрузку. Убедиться, что источник держит требуемое время, не уходит в режим перегрузки и не отключается.

Таким же образом проверяют дизель-генератор, чиллеры, кондиционеры и остальную технику, установленную в ЦОДе.

После этого проводят комплексные испытания под нагрузкой всех систем одновременно. Это необходимо, чтобы оценить работу оборудования во взаимодействии: например, в момент переключения на генератор он может не запуститься из-за слишком резкой нагрузки.

Можно ли обойтись без испытаний?

Можно, но стоит ли? Примеры из нашей практики.

История 1

Заказчик принял ЦОД без нагрузочных испытаний. На момент приема нагрузка была невелика, около 10%, затем постепенно увеличивалась. Однажды произошло возгорание кабеля — как выяснилось, контактные соединения не были закручены с нужным моментом, поэтому контакт грелся. Повезло, что сработала сигнализация, ситуацию вовремя взяли под контроль. Иначе дело могло кончиться пожаром, а значит — повреждением или уничтожением оборудования.

Почему проблему не обнаружили сразу? Потому что без высокой нагрузки даже незатянутые контакты не перегревались. С нагрузочными испытаниями недоработку устранили бы до полноценного запуска ЦОДа.

Обратные примеры — когда мы провели испытания и обнаружили потенциальную проблему. 

История 2

В ЦОДе заказчика был установлен ИБП мощностью 1 МВт. Модель подбирали под конкретный дизель-генератор: времени автономной работы должно было хватать на запуск резервного питания. Согласно документации, ИБП должен держать 10 минут при максимальной загрузке. Испытания показали, что он держит только 9 минут. Через несколько лет это время сократилось бы до 7-8 минут из-за естественного снижения емкости. Таких показателей недостаточно, чтобы установленный генератор вышел на полную мощность и мог подхватить нагрузку при тех настройках автоматики, которые изначально предусматривались проектом. 

Если бы это не выяснили, внеплановое отключение электричества могло привести к остановке всего ЦОДа.

История 3

В другом случае в ходе испытаний внезапно отключился серверный шкаф. Стали искать причину и выяснили, что на заводе были выставлены неправильные настройки: при подключении плановой нагрузки срабатывал автомат защиты. Проблему решили просто — перенастроили оборудование. Однако без испытаний под нагрузкой об ошибке узнали бы только тогда, когда отключились уже работающие сервера.

О последствиях остановки работающего ЦОДа вряд ли нужно много рассказывать: от потерь данных и сбоев в публичных сервисах до пожара, где могут пострадать не только техника, но и люди. 

Мы рекомендуем всегда проводить нагрузочные испытания при запуске ЦОД — самостоятельно или силами приглашенных инженеров. Предотвратить — не только проще и надежнее, но в конечном итоге и дешевле.


Другие статьи