Проблемы с электропитанием в ЦОД (АО ДИС Казахтелеком, г. Караганда)

Череда испытаний обрушилась на нас за короткий промежуток времени. Неожиданностью стало то, чего вообще не ожидали и в принципе не могло случиться в наше время, т.к. резервирование у ЦОД должно быть нескольких уровней, ведь есть регламент и требования за которые мы платим, но видимо не в случае с Казахтелекомом. Забегая вперед, хочется отметить, что для оборудования и данных нет ничего хуже чем жесткая потеря электроснабжения, естественно зная заранее о предстоящей проблеме мы бы потушили все оборудование и оповестили клиентов... Но клиентам все равно на чьей стороне возникала проблема, сервис подаем мы, значит мы виноваты. Убеждены, теперь уже нет другого варианта, как искать альтернативу 10-летнему сотрудничеству с Дирекцией информационных систем Казахтелеком. Очень жаль, что предлагая сервис, нет заботы о надежности. Когда пропала подача электричества в дата центре сразу с 2-х вводов, должна подключиться ДГУ (дизель-генераторная установка) и обеспечить резервную подачу электричества, кроме этого всегда есть батареи, запас которых должен хватить на 30-40 минут работы без дополнительных источников. Но текущей ситуации что-то пошло не так - не отработал ДГУ, возникла какая-то поломка и батарейки приказали долго жить, вырубившись практически сразу, после чего все сервера, работающие в боевом режиме одномоментно выключились - конечно побились данные, мы потратили не один час на восстановление после этого сбоя, но это отдельная тема и не хочется на этом заострять внимание, это наша работа. Конечно нас никто не оповестил заранее, да и сами сотрудники не знали о предстоящем коллапсе, единственное, за минуту до выключения нам позвонил дежурный и сообщил что есть проблемы по питанию, выключены кондиционеры и чтоб мы следили за температурой, но что произошло потом мы даже не подозревали. Ровно через минуту система мониторинга (9 июня в 15:50 по времени Нур-Султан) сообщила нам, что все - Карагандинский ЦОД ушел в туман. Мы сразу направились в ЦОД, с диким чувством страха, что что-то физически выйдет из строя или побьются данные, но нам повезло больше, чем коллегам по несчастью, у кого-то сломалось оборудование. У нас лишь побились данные, пришлось повозиться с сетевым хранилищем, но все прошло достаточно успешно. Вот такая грустная история - более чем 10 лет работы не происходили такие встряски, как любой из последних инцидентов, будь то проблема на сетевом уровне или как сейчас по электропитанию. Нам лишь остается извиниться перед нашими клиентами в очередной раз, что по независящим от нас причинам произошло это событие. Надеемся на понимание и что мы найдем себе надежное пристанище в ближайшее время - вопрос прорабатывается. Ваш gohost.kz

stormwall



Вторник, Июнь 9, 2020







« Назад