К нагрузочным испытаниям ЦОДа во время эксплуатации часто относятся с опаской. Сомнения сводятся к вечному вопросу о том, стоит ли вмешиваться в механизм, который и так работает. Мы уверены, что стоит — объясним, почему.
Когда ЦОД принимается в эксплуатацию, оборудование проходит пусконаладку, а затем испытания под нагрузкой. После того, как каждая система в отдельности и все в комплексе прошли проверку, дата-центр передается в эксплуатацию.
Дальше он работает — год, два, три… Есть вероятность, что с течением времени под воздействием вибрации, температур, человеческого фактора функциональное состояние систем ухудшается. Неизбежно будут протекать процессы, связанные с износом компонентов, ослаблением контактов и т.д. Поэтому рекомендуется регулярно проводить испытания — оптимально раз в год.
Но здесь возникает дилемма. Ведь ЦОД успешно работает, что само по себе подтверждает его исправность. При этом проведение испытаний несет невысокий, но все же не нулевой риск спровоцировать сбой в процессах. Зачем рисковать, пока все в порядке?
Зачем нужны нагрузочные испытания во время эксплуатации?
Простейшая аналогия — плановое ТО автомобиля. Его тоже проводят для внешне исправного транспорта. Это превентивная мера, задача которой — заранее обнаружить потенциальную проблему, чтобы машина не встала где-то на полпути.
Так же и с ЦОД. Если не проводить регулярных испытаний, сбой может произойти внезапно, когда к нему никто не готов. Устранять проблему в аварийном порядке всегда сложнее: найти причину поломки, вызвать нужных специалистов, доставить запчасти — это много времени и часто большие потери.
При специально организованных испытаниях ситуация будет запланированной и контролируемой. Заранее продумываются условия и порядок действий, привлекаются профильные команды — даже если что-то пойдет не так, работа будет сразу же восстановлена.
Таким образом, вопрос должен стоять не в том, проводить или не проводить нагрузочные испытания. А как организовать их, чтобы выполнить эффективную диагностику с минимальными рисками.
Как подготовить нагрузочные испытания на работающем ЦОДе?
Главное отличие испытаний в работающем дата-центре — в подготовке подробной методики. Ее разрабатывают под конкретный ЦОД и если необходимо, корректируют перед каждыми испытаниями. В ней специалисты закладывают последовательность тестирования, а также прописывают действия на случай нештатной ситуации. Испытания всегда проводятся посегментно, для отдельных частей систем: это гарантирует, что если какое-то оборудование отключится, весь ЦОД продолжит работу.
Базой для нагрузочных испытаний служат нормативы их проведения, которые должны входить в комплект документации ЦОД. Однако на практике мы часто сталкиваемся с тем, что их нет. Причины могут быть разными: документы не поступили от подрядчика при сдаче центра в эксплуатацию, или утеряны, или не были переданы при смене службы эксплуатации. В таких ситуациях нет четкого понимания структуры ЦОД и организации процессов, это очень усложняет подготовку и проведение испытаний.
Помочь в решении этих вопросов готовы наши специалисты. Мы можем разработать индивидуальную методику испытаний для вашего ЦОД. При отсутствии комплекта документов — провести аудит объекта, который позволит не только грамотно проводить испытания, но и оптимизировать работу ЦОД, повысить его эффективность.
Если потребуется, мы полностью возьмем на себя или окажем поддержку вашей службе эксплуатации при проведении самих испытаний. Принципы и тонкости их организации — большая тема для отдельной статьи.