Как предотвратить пожары в центрах обработки данных: уроки крупнейших инцидентов

Пожары в центрах обработки данных могут привести к травмам сотрудников, простоям и потере доверия клиентов. Извлеките важные уроки из крупных инцидентов, чтобы повысить безопасность.

Организации часто неохотно делятся подробностями о пожарах в центрах обработки данных из-за соглашений о неразглашении и проблем с общественностью. Таким образом, зачастую достаточно сложно отследить случаи пожаров в центрах обработки данных вообще, если только не были сделаны отчеты в местные пожарные части или редакции новостей, или если клиенты не испытывают значительные простои и не требуют объяснений.

Такая тенденция сокрытия подробных отчетов о пожарах в центрах обработки данных может помочь компаниям защитить свою репутацию, но она также может затруднить операторам центров обработки данных выявление уязвимостей, извлечение уроков из инцидентов и реализацию мер по обеспечению безопасности своих работников и клиентов.

Согласно сообщению в блоге Uptime Institute о частоте возгораний в центрах обработки данных, опубликованному после катастрофического пожара, уничтожившего центр обработки данных OVHcloud во Франции в 2021 году, с момента начала ведения учета в 1994 году было зарегистрировано 11 случаев возгораний в центрах обработки данных — в среднем 0,5 пожара в год.

Совсем недавно организация по стандартизации центров обработки данных заявила, что выявила 14 «громких отключений в центрах обработки данных», вызванных пожарами или системами пожаротушения в период с 2020 по начало 2023 года.

Хотя пожары составляют относительно небольшой процент инцидентов, которые затрагивают центры обработки данных, их потенциальные последствия не следует упускать из виду. Помимо опасностей, которые они представляют для сотрудников, пожары в центрах обработки данных могут привести к длительному простою. Это может потенциально стоить компаниям миллионы долларов и привести к серьёзным неудобствам для клиентов, что приведет к подрыву доверия.

Хотя подробности могут быть скудными, Data Center Knowledge пересмотрели свои архивы, чтобы пересмотреть крупные пожары в центрах обработки данных и отключения электроэнергии за последнее десятилетие. Мы также поговорили с отраслевыми экспертами, чтобы предоставить информацию, которую работники центров обработки данных могут использовать для оценки уязвимостей и разработки критически важных планов безопасности для защиты от будущих инцидентов.

1. Пожар в центре обработки данных Google, Айова

Незадолго до полудня 8 августа 2022 года в крупном центре обработки данных Google в Каунсил-Блаффс, штат Айова, вспыхнул пожар . Пожар, который сначала был зарегистрирован как «электрический инцидент», был вызван вспышкой дуги, которая спровоцировала взрыв на подстанции около главного здания центра обработки данных.

Хотя технически это не пожар, дуговая вспышка представляет собой электрический взрыв, который генерирует тепло свыше 30 000 градусов по Фаренгейту, что может привести к воспламенению материалов и возникновению пожаров. Взрыв произошел, когда трое рабочих пытались добраться до электрического шкафа в главном помещении центра обработки данных.

В результате пожара пострадали трое рабочих, которых доставили в ближайшую больницу для лечения. Он произошел в тот же день, когда произошли сбои в работе карт и поисковой службы компании, хотя Google заявила, что эти два инцидента не связаны между собой.

Центр обработки данных в Каунсил-Блаффс — один из первых объектов Google и один из крупнейших кампусов центров обработки данных в мире.

2. Вызывающий воспоминания пожар в центре обработки данных, Нью-Джерси

Пожарные отреагировали на пожар в центре обработки данных Evocative в Секокусе , штат Нью-Джерси, 12 октября 2023 года. Пожар был локализован в зоне бесперебойного питания ( ИБП ) и был быстро потушен. Несмотря на это, он нанес урон центру обработки данных площадью 105 000 кв. футов, что потребовало полного отключения питания. К счастью, никто не пострадал.

Компания Evocative, ранее известная как INAP, обеспечивает подключение к Интернету многим компаниям в районе метро Нью-Йорка.

3. Пожар в центре обработки данных OVHcloud, Франция

Пожар 10 марта 2021 года уничтожил один из центров обработки данных OVHcloud в Страсбурге и часть второго.

Французская компания облачных вычислений сообщила, что никто из сотрудников OVH, пожарных или местных государственных служб не пострадал.

Пожар полностью уничтожил центр обработки данных OVH SBG2 и четыре комнаты в SBG1, согласно отчету об инциденте на веб-сайте компании. На объекте SBG3 был отключен ИБП, а оставшийся центр обработки данных SBG4 «не получил никаких физических повреждений».

3. Пожар в центре обработки данных AT&T, Техас

Пользователи AT&T в районе Далласа лишились доступа к интернету и кабельному телевидению после того, как 15 октября 2018 года в центре обработки данных AT&T в Ричардсоне, штат Техас, вспыхнул «неустановленный пожар» .

По сообщениям, пожар начался на выключателе питания и привёл к простою клиентов до 12 часов. Пожар не привёл к травмам.

4. Центр обработки данных Fisher Plaza, Вашингтон

Около полудня 2 июня 2009 года в центре обработки данных Fisher Plaza в Сиэтле, где размещались серверы таких популярных сайтов, как Adhost.com, Bing Travel от Microsoft, Verizon и платежный портал Authorize.net, вспыхнул электрический пожар .

Все сотрудники дата-центра были эвакуированы, никто не пострадал. Однако инцидент привёл к убыткам и простоям на сумму 6,8 млрд долларов .

Расследование , проведенное вашингтонской инжиниринговой компанией Power Science Engineering, показало, что причиной пожара, скорее всего, стала недостаточная изоляция электропроводки, соединяющей здание с городской электросетью.

Это был не первый случай, когда Fisher Plaza столкнулся с отключением электроэнергии и электрическими пожарами. Всего год назад в электрощитовой на уровне гаража вспыхнул пожар, в результате чего компания недвижимости Redfin отключилась на пять часов.

5. SK Inc. C&C Fire, Южная Корея

15 октября 2021 года пожар в центре обработки данных SK C&C в Пангё , Южная Корея, затронул две крупные технологические компании: Kakao Corporation и Naver Corporation.

В то время как Naver быстро восстановил работу своих серверов, Kakao столкнулся с длительными перебоями в работе своих мессенджеров, платежных приложений и сервисов совместных поездок на несколько часов.

Несмотря на наличие протокола восстановления после стихийных бедствий , план Kakao не учитывал отключение электроэнергии во время пожара, что задержало её усилия по восстановлению. В ответ Kakao создала «комитет по предотвращению повторения», чтобы предотвратить подобные инциденты в будущем.

Повышение безопасности: предотвращение пожаров в центрах обработки данных

Приведенные выше примеры напоминают о том, что пожары в центрах обработки данных могут возникать неожиданно и иметь различные причины, включая вспышки дуги, неисправную инфраструктуру, отказы оборудования и человеческие ошибки.

Хотя существуют и непредвиденные угрозы, такие как стихийные бедствия, есть много случаев, когда сбои в подаче электроэнергии и электрические пожары можно было бы предотвратить. Обеспечение безопасности инфраструктуры является ключом к снижению риска пожаров в центрах обработки данных.

К сожалению, повышение безопасности критической инфраструктуры часто имеет большую цену. По словам Криса Брауна, главного технического оператора Uptime Institute, безопасность инфраструктуры иногда ставится под угрозу из-за бюджетных ограничений.

«Ограниченные доступные средства и необходимость инвестировать в критические электрические и механические системы привели к необходимости извлечения средств из других областей», — сказал Браун. «Кроме того, в некоторых областях необходимо перепрофилировать существующие здания из-за нехватки места, а существующие конструкции зданий изначально могли не быть спроектированы на уровне, который большинство посчитало бы необходимым для центра обработки данных».

Он добавил: «Необходимо больше внимания и инвестиций в фактическую структуру, а также в разделение дополнительных систем, чтобы гарантировать, что пожар не распространится и не приведет к отключению всего центра обработки данных».

Борьба с пожарами посредством соблюдения норм и правил

В последние годы наблюдается более активная тенденция к созданию более строгих стандартов соответствия и регулирования для инфраструктуры центров обработки данных в США и во всем мире.

В декабре 2023 года в Колорадо был принят Закон о совершенствовании федеральных центров обработки данных, в котором изложены минимальные стандарты устойчивости инфраструктуры в случае кибератак и физических атак, а также стихийных бедствий.

В мае 2024 года Мэриленд принял Закон об оптимизации критической инфраструктуры . В январе 2024 года Великобритания приняла аналогичный законопроект, который ввел новые правила отчетности об инцидентах в центрах обработки данных и усилил требования к безопасности и инфраструктуре.

Регулирование и меры безопасности для повышения устойчивости инфраструктуры являются ключом к смягчению последствий катастроф в центрах обработки данных, но также важно помнить, что некоторые инциденты неизбежны. Это делает крайне важным наличие аварийных протоколов , которые способствуют безопасному и эффективному восстановлению.

Насколько быстро могут быть восстановлены центры обработки данных и пользовательские сервисы, часто зависит от протоколов и планов аварийного восстановления оператора. Планы аварийного восстановления центров обработки данных включают группы аварийного восстановления, оценку рисков, избыточную инфраструктуру и резервные генераторы питания, которые защищают данные и сокращают время простоя.

Планы восстановления после сбоев — это не просто документы и протоколы. Они также подразумевают прочные партнёрские отношения между операторами центров обработки данных и их клиентами. Криста Шепард, представитель Cologix, разработчика центров обработки данных, сказала, что планы восстановления после сбоев — это не меры типа «установи и забудь», а живые документы, которые должны адаптироваться к постоянно меняющемуся ландшафту.

«Возможность быстрого восстановления операций в случае катастрофического события требует резервного копирования данных в безопасных удалённых местах», — сказал Шепард. «Также требуются тщательное тестирование, отработка и проактивное сотрудничество, чтобы гарантировать, что план восстановления после катастрофы будет реализован максимально гладко, чтобы сэкономить драгоценное время и ресурсы в случае катастрофической потери.

Она добавила: «Важно периодически обновлять и совершенствовать планы восстановления после сбоев по мере развития вашего бизнеса и технологий, а также адаптироваться к изменяющимся условиям окружающей среды и погодным условиям».


Ведёт расследования о коррупции в любых эшелонах власти

Wiki