Нагрузочные испытания — достаточно трудоемкий процесс. Зачем проводить их на этапе запуска ЦОД, когда оборудование только установлено и настроено, все новое и по определению рабочее? Попробуем разобраться.
Центр обработки данных — сложное проектное решение. В его создании задействовано много исполнителей, работы на разных этапах часто выполняют разные подрядчики. Плюс — высокая технологическая насыщенность, множество инженерных систем.
На любом этапе могут возникнуть точки риска:
- погрешность в проектных расчетах;
- отклонение от проекта при строительстве;
- завышенные характеристики оборудования, заявленные производителями;
- неверно выбранные настройки системы…
Минимальные отклонения в параметрах могут быть незаметными при запуске и не критичными долгое время, но в какой-то момент проявят себя и приведут к сбоям в работе всего ЦОДа. Почему?
Особенность ЦОДа в том, что у него нет фиксированной нагрузки. К примеру, перерабатывающий завод после выхода на проектную мощность работает относительно равномерно. Но в ЦОД нагрузка на сервера постоянно меняется: то растет, то падает почти до нуля, в зависимости от объема вычислений. Для оборудования загрузка 10% и 90% — это разные режимы работы, в которых оно поведет себя по-разному.
Поэтому принцип “запустилось и работает — значит, все в порядке” — не состоятелен. Так же как и проверка инженерных систем, выполненная в простых условиях, не имеет смысла. Таким образом нельзя увидеть проблемы, которые возникнут при высоких нагрузках.
Необходимы специальные испытания. В их ходе с помощью нагрузочных машин создается максимальная нагрузка на системы, замеряется большой комплекс параметров, оценивается качество и стабильность работы.
Как проводятся нагрузочные испытания?
Сначала специалисты испытывают каждую систему по отдельности.
Например, ИБП имеет параметр времени автономной работы. В проекте заложено, что при номинальной загрузке в 1 МВт он должен работать 15 минут — именно столько времени необходимо, чтобы запустился резервный генератор. Если проверять ИБП на меньшей мощности, нельзя узнать, продержится ли он заявленное время при нагрузке в 100%. Производитель мог незначительно завысить показатели, и при отключении электричества ИБП не выполнит своих функций.
Поэтому важно провести испытания, создав максимальную нагрузку. Убедиться, что источник держит требуемое время, не уходит в режим перегрузки и не отключается.
Таким же образом проверяют дизель-генератор, чиллеры, кондиционеры и остальную технику, установленную в ЦОДе.
После этого проводят комплексные испытания под нагрузкой всех систем одновременно. Это необходимо, чтобы оценить работу оборудования во взаимодействии: например, в момент переключения на генератор он может не запуститься из-за слишком резкой нагрузки.
Можно ли обойтись без испытаний?
Можно, но стоит ли? Примеры из нашей практики.
История 1
Заказчик принял ЦОД без нагрузочных испытаний. На момент приема нагрузка была невелика, около 10%, затем постепенно увеличивалась. Однажды произошло возгорание кабеля — как выяснилось, контактные соединения не были закручены с нужным моментом, поэтому контакт грелся. Повезло, что сработала сигнализация, ситуацию вовремя взяли под контроль. Иначе дело могло кончиться пожаром, а значит — повреждением или уничтожением оборудования.
Почему проблему не обнаружили сразу? Потому что без высокой нагрузки даже незатянутые контакты не перегревались. С нагрузочными испытаниями недоработку устранили бы до полноценного запуска ЦОДа.
Обратные примеры — когда мы провели испытания и обнаружили потенциальную проблему.
История 2
В ЦОДе заказчика был установлен ИБП мощностью 1 МВт. Модель подбирали под конкретный дизель-генератор: времени автономной работы должно было хватать на запуск резервного питания. Согласно документации, ИБП должен держать 10 минут при максимальной загрузке. Испытания показали, что он держит только 9 минут. Через несколько лет это время сократилось бы до 7-8 минут из-за естественного снижения емкости. Таких показателей недостаточно, чтобы установленный генератор вышел на полную мощность и мог подхватить нагрузку при тех настройках автоматики, которые изначально предусматривались проектом.
Если бы это не выяснили, внеплановое отключение электричества могло привести к остановке всего ЦОДа.
История 3
В другом случае в ходе испытаний внезапно отключился серверный шкаф. Стали искать причину и выяснили, что на заводе были выставлены неправильные настройки: при подключении плановой нагрузки срабатывал автомат защиты. Проблему решили просто — перенастроили оборудование. Однако без испытаний под нагрузкой об ошибке узнали бы только тогда, когда отключились уже работающие сервера.
О последствиях остановки работающего ЦОДа вряд ли нужно много рассказывать: от потерь данных и сбоев в публичных сервисах до пожара, где могут пострадать не только техника, но и люди.
Мы рекомендуем всегда проводить нагрузочные испытания при запуске ЦОД — самостоятельно или силами приглашенных инженеров. Предотвратить — не только проще и надежнее, но в конечном итоге и дешевле.