13.10.2020
ITBreeze LLC

Как быстро и бесплатно проверить работу службы эксплуатации?

Служба эксплуатации ЦОДа — необходимый элемент поддержания его стабильной работы. Но сам по себе факт ее наличия ничего не гарантирует. Как понять, что служба эксплуатации действительно работает грамотно и эффективно? Предлагаем алгоритм простого экспресс-аудита, который владелец дата-центра может провести самостоятельно, чтобы получить предварительную оценку.

Зачем проводить экспресс-аудит?

Нужно ли вообще проверять работу службы эксплуатации?

Можно предполагать по умолчанию, что все хорошо. Однако недоработки могут дать о себе знать внезапно и довольно болезненно: от потери данных до пожара. 

С другой стороны, полноценный аудит с привлечением сторонних экспертов требует организации процесса, выделения времени и бюджета. Его имеет смысл проводить, чтобы выявить и устранить конкретные недочеты. Он может быть избыточен в тех случаях, когда стоит вопрос о том, насколько адекватно выстроена эксплуатация в целом. 

Мы рекомендуем начать с экспресс-аудита своими силами. Для этого нужно задать несколько вопросов персоналу, который отвечает за обслуживание ЦОДа. Результаты подскажут направление для дальнейших действий:

  • если ответы получены, даже с отдельными пробелами — можно переходить к углубленному аудиту, чтобы отполировать работу,
  • если ответов нет — задача переходит в другую плоскость: придется перестраивать структуру службы, решать кадровые вопросы.

Такой аудит требует пары часов времени и нулевых затрат. Для некоторых вопросов будут полезны технические знания, но и это не обязательно: уже по характеру общения, уверенности сотрудника можно получить информацию. Речь идет именно об экспресс-оценке, где важны даже невербальные критерии.

План экспресс-аудита

Все вопросы взяты из нашей практики. Правила и требования, которых они касаются, продиктованы убытками на реальных объектах из-за проблем, которые нам приходилось решать. 

Список не является исчерпывающим, вопросов может быть больше — мы выбрали самые очевидные и часто встречающиеся. Их актуальность не зависит от размера объекта и его особенностей: они подходят для ЦОДов и с десятком, и с несколькими сотнями стоек.

  1. Начинаем с проверки документации.

Необходимо запросить у специалиста СЭ определенные документы, которые должны сопровождать работу.

а. Актуальный проект

Пример из практики.

Мы приехали для обслуживания ЦОДа. Изучив однолинейную схему серверного помещения, попросили энергетика показать конкретный ИБП со схемы в реальности. В ответ услышали, что этот ИБП заменен, на его месте стоит другой, а изменения в схему не внесли. Понятно, что никакие изменения на объекте не отражаются в проектной документации.

Что это означает? Если нужно будет провести переключение, вывести оборудование из эксплуатации, — у специалистов не будет понимания, как соединены устройства. И несложная плановая манипуляция может привести к сбоям вплоть до отключения ЦОДа.

Правда, чтение схем — специальный навык, которого может не быть у директора или владельца ЦОДа. Но они могут знать, например, что недавно проводили замену какого-то оборудования. Достаточно попросить показать это устройство на схеме и на месте и сравнить маркировки, которые должны совпадать. 

Отсутствие маркировки — еще одна распространенная проблема. Когда уйдут текущие сотрудники, которые знают, где что стоит, следующим придется долго разбираться в схеме.

Казалось бы, эти требования очевидны. Но далеко не всегда выполняются: нам приходилось видеть крупные и отлично оснащенные ЦОДы с потерянной документацией и ошибками в маркировке.

б. Процедуры подготовки и обслуживания.

Любое инженерное оборудование требует обслуживания — как плановых ТО, так и ремонтных работ. 

До начала таких работ необходимо провести процедуру подготовки. Например, ИБП нужно обесточить, а перед этим перевести всю систему на резервный источник или в режим байпас. Если этого не сделать, отключение ИБП приведет к выключению серверов. То же касается и самих процедур. При плановом ТО ИБП нужно перевести в нужный режим, скачать лог-файл, провести визуальный осмотр и т.д. — в плане 15-20 пунктов. 

Вся последовательность таких действий должна быть регламентирована: необходим четко прописанный алгоритм процедур по выводу оборудования из эксплуатации, обслуживанию и обратному вводу. Эти процедуры называются МОР (по подготовке к работе) и SOP (по самой работе). Документы должны быть разработаны до того, как объект переходит в эксплуатацию, причем на все элементы ЦОДа: каждый шкаф, щит и т.д. 

Как проверить их наличие? Указать на любой шкаф и попросить принести инструкцию по его обслуживанию. Если ее нет — никаких процессов тоже нет. По большому счету, на этом аудит можно заканчивать: становится понятно, что нужно выстраивать работу ЦОД с самого начала.

в. Отчет о проведении работ

Помимо плана выполнения процедур, должны быть документы, которые подтверждают, что они действительно выполнялись. 

Поэтому, когда технологическая карта на определенный вид работ предоставлена, — просим технический акт, соответствующий этой карте. В нем должно быть прописано, когда и как проводилась работа, внесены все значения и данные. Акт может храниться и в бумажном, и в электронном виде — главное, чтобы он был.

г. План действий в аварийной ситуации (EOP)

Когда возникает возгорание кабеля, задымление, останавливаются несколько кондиционеров, не запускается дизель-генераторная установка — любой сбой в работе ЦОД, сотрудники должны знать, что делать. Для этого нужен заранее подготовленный план действий для всех возможных аварий.

Начал дымиться кабель — что делать? Отключить питание, или запустить систему пожаротушения, или эвакуировать людей? Сориентироваться в экстренной ситуации и за несколько секунд принять адекватное решение человек не может. Аварийные процедуры должны быть составлены заранее и донесены до всего состава.

Поэтому следующий пункт проверки — просьба предоставить план действий в аварийных ситуациях. Если его нет, даже небольшая проблема может привести к серьезным последствиям.

Эти четыре пункта — основной минимум по документам. Остальной массив документации проверяется при более глубоком аудите. Здесь же у нас есть способ буквально за полчаса проверить, работает ли СЭ в принципе: если нет даже базы, то нет смысла тратить деньги на детальный аудит, нужно заниматься полной перестройкой СЭ. 

  1. Далее проверяем структуру службы эксплуатации

а. Организационная структура

Кто занимается эксплуатацией ЦОДа и кто за что отвечает? Четко выстроенная структура особенно важна для больших дата-центров: в них должны быть сотрудники, ответственные за электрохозяйство, пожарную безопасность, охрану труда, экологию и т.д. Часто какие-то функции объединяются в одном специалисте, главное — убедиться, что все они закрыты.

б. Программа обучения сотрудников

Мы часто общаемся с сотрудниками СЭ. Если задать вопрос, проходят ли они регулярное обучение, сдают ли экзамены, получают сертификаты, — выясняется, что нет ни обучения, ни его программы. Почему это плохо?

Да, сотрудник мог проходить вводное обучение при поступлении на работу. Ему рассказали, например, о действиях в аварийной ситуации. 4 года аварий не было, на пятый она произошла — но к этому времени он уже многого не помнит, да и сама информация могла устареть.

Поэтому обучение должно быть регулярным и касаться действий в аварийных ситуациях, а также проведения регламентных работ.

Помимо теоретического обучения, должны проводиться учения с симуляцией аварий. Техникам и инженерам нужно не только выучить, но и отработать последовательность действий по прописанному алгоритму. План таких учений тоже должен быть.

Во время аудита нужно пообщаться не только с руководителем, но и с инженерами, сотрудниками, которые ведут дежурства, проводят регламентные работы. Задать им вопросы: как они проводят регламентное обслуживание, что делают в аварийной ситуации, как часто посещают обучение и учения. Это даст понимание, существуют ли такие программы только на бумаге или реализуются в действительности.

  1. Бюджет

На службу эксплуатации выделяется определенный бюджет, который складывается из разных статей — электричество, ФОТ, ремонт и обслуживание оборудования. По каждой из них должен быть просчитан план расходования, и все они должны быть закрыты в течение года. 

Сам бюджет чаще всего оформляет сотрудник финансового отдела, но заявку подает ответственный специалист СЭ. Ему нужно задать вопросы: какой бюджет запланирован? сколько потрачено? есть ли план реализации бюджета до конца года?

Если планирования бюджета нет — к чему это может привести? Ряд процедур требуют ощутимых расходов: например, замена батарей ИБП, которая проводится раз в 5 лет. Такие расходы должны быть заложены заранее. Иначе может возникнуть тупиковая ситуация, когда батареи работают на пределе и требуют замены, но найти на это средства в середине года уже невозможно.

Другая проблема — попытка сэкономить за счет обслуживания. При проведении регламентных работ требуется заменить расходные материалы — масло, фильтры и т.п. Если их не менять — конечно, расходы СЭ уменьшатся. Но такая экономия выходит боком, приводя к аварии. 

Вот основные моменты, которые владелец или директор ЦОДа может проверить самостоятельно в формате экспресс-аудита. Если же у него не хватает времени или технических знаний, хочется иметь экспертную поддержку — мы можем помочь. 

Чем мы можем помочь?

Экспресс-аудит — несложная и недорогая услуга, процесс займет 1-2 часа. По результатам мы предоставим заключение: какие аспекты проверили, что в порядке, где есть сложности и пробелы. 

Если быстрая оценка покажет, что есть мелкие недочеты, но в целом СЭ работает — проведем углубленный аудит, который позволит детально разобраться во всех процессах и дать рекомендации по улучшению работы.

По итогам аудита можем помочь с устранением пробелов. Например, будет выявлено, что операционные карты по регламентным работам составлены, а по аварийным ситуациям — нет. Или они есть только по части оборудования, или в отдельных документах есть ошибки. 

В таких случаях мы проверим, чего не хватает, точечно заполним бреши и поможем решить проблемы СЭ. Направление работы может быть любым, необходимым в конкретном случае: внедрим процессы, разработаем процедуры, обучим людей, установим специализированное ПО для автоматизации.

Если экспресс-аудит покажет, что ситуация на уровне “все плохо” — мы можем помочь провести полную реорганизацию СЭ. Такая услуга включает формирование структуры СЭ, всех документов, программ обучения, планов учений, оценку требуемого бюджета. По сути мы разработаем и предоставим готовую схему организации СЭ. Если потребуется, то далее, когда заказчик наберет штат сотрудников, запустим работу новой службы, проведем обучение по работе с документами и оборудованием, возьмем на себя регулярный контроль.

В работе и обслуживании ЦОДа есть много других аспектов, которые приводят к некритичным потерям: например, снижают его эффективность, но не грозят остановкой. Здесь же мы говорим о способе быстро обнаружить наиболее значимые пробелы в работе СЭ, закрыть их небольшими латками и продолжать работать. Если пустых мест слишком много — это сигнал, что нужно менять все, иначе рано или поздно авария будет.

Такой простой аудит дает возможность сфокусироваться на решении проблем и значительно улучшить ситуацию с точки зрения работоспособности ЦОДа. Причем не обязательно решать их все сразу, можно двигаться постепенно — главное, что вы будете точно знать, где у вас болевые точки и как дойти до целевой модели. 


Другие статьи