Что-то горит в серверной комнате; как я могу быстро определить, что это такое?

На днях мы замечаем ужасный жгучий запах, выходящий из серверной комнаты. Короче говоря, это оказалось одним из модулей батарей, которые горели в блоке ИБП, но за пару часов до этого мы смогли разобраться. Основная причина, по которой мы смогли понять, что дисплей ИБП, наконец, показал, что модуль необходимо заменить.

Вот проблема: вся комната была заполнена запахом. Выполнение теста нюха было очень сложным, потому что запах проник в все (не говоря уже о том, что это заставило нас загореться). Мы почти ошибочно забрали сервер нашей производственной базы данных, потому что именно там запах был самым сильным. Кажется, что жизненные силы были в порядке (температуры процессора показали 60 градусов C, а скорость вращения вентиляторов нормально), но мы не были уверены. Так получилось, что аккумуляторный модуль, который сгорел, был примерно такой же высоты, как и сервер на стойке и всего в 3 футах. Если бы это была настоящая чрезвычайная ситуация, мы бы потерпели неудачу.

В реальности вероятность того, что фактическое серверное оборудование сгорит, является довольно редким случаем, и большую часть времени мы будем рассматривать ИБП виновника. Но с несколькими стойками с несколькими предметами оборудования он может быстро стать гадательной игрой. Как быстро и точно определить, какая часть оборудования действительно горит? Я понимаю, что этот вопрос сильно зависит от переменных окружения, таких как размер помещения, вентиляция, местоположение и т. д., но любой вход был бы оценены.

446 голосов | спросил Chad Harrison 4 PMpThu, 04 Apr 2013 18:22:29 +040022Thursday 2013, 18:22:29

7 ответов


378

По общему мнению, ответ на ваш вопрос состоит из двух частей:

Как мы находим источник смешного горящего запаха?

У вас есть «How» довольно хорошо прибиты:

  • «Тест« Снайф »
  • Ищите видимый дым /дымка
  • Прогуляйтесь по комнате с тепловой (ИК) камерой, чтобы найти горячие точки.
  • Проверьте панели мониторинга и устройства на наличие предупреждений.

Вы можете улучшить свои шансы найти проблему быстро несколькими способами - улучшенный мониторинг часто бывает самым простым. Некоторые вопросы:

  • Получаете ли вы температуру и другие предупреждения о состоянии здоровья от вашего оборудования?
  • Сообщают ли ваши ИБП об ошибках в вашей системе мониторинга?
  • Получаете ли вы текущие аварийные сигналы от вашего оборудования распределения электроэнергии?
  • Являются ли датчики дыма в помещении, сообщающие в систему мониторинга? (и могут ли они? )

Когда мы должны устранить проблему с ударом Big Red Switch?

Это более интересный вопрос.
Удар по большому красному переключателю может стоить вашей компании огромной суммы денег в спешке: выбросы чистых агентов могут составлять десятки тысяч долларов, а затраты на отключение /восстановление после аварийного отключения (EPO, «падение комнаты», ) может быть разрушительным.
Вы не хотите бросать центр обработки данных, потому что конденсатор в электропитании выскочил и сделал запах комнаты.

И наоборот, пожар в серверной комнате может стоить вашей компании свои данные /оборудование и, что более важно, жизнь ваших сотрудников.
Устранение неполадок «этот забавный запах горения» никогда не должно иметь приоритета над безопасностью , поэтому важно иметь некоторые четкие правила об устранении неполадок «pre-fire».

Ниже приводятся следующие правила: мои личные ограничения , которые я применяю в отсутствие (или в дополнение) к любой другой четко определенной процедуре /правилам - они мне хорошо послужили, и они могут вам помочь, но они могут так же легко заставить меня убить или уволить завтра, поэтому примените их на свой страх и риск.

  1. Если вы видите дым или огонь, оставьте комнату
    Это должно, конечно, сказать, но, допустим, это так: если есть активный огонь (или дым, указывающий на то, что скоро будет), вы эвакуируете комнату, отключите питание и выпустите систему пожаротушения.
    Исключения могут существовать (проявлять здравый смысл), но это почти всегда правильное действие.

  2. Если вы продолжаете устранять неполадки, всегда включайте хотя бы одного другого человека
    Это по двум причинам. Во-первых, вы не хотите бродить в центре данных, и вдруг у вас есть стойка, поднимающаяся в ряд, куда вы идете, и никто не знает, что вы там. Во-вторых, другой человек - это ваша проверка здравомыслия по устранению неполадок и отбрасыванию комнаты, и если вы сделаете звонок, чтобы попасть в «Большой красный коммутатор», у вас есть преимущество в том, что второй человек согласен с решением (помогает избежать аспектов, ограничивающих карьеру такого решения, если кто-то задаст его позже).

  3. Управлять разумными мерами безопасности при устранении неполадок
    Убедитесь, что у вас всегда есть путь выхода (открытый конец строки и четкий путь к выходу).
    Держите кого-то, кто находится в выпуске EPO /пожаротушения.
    Возьмите с собой огнетушитель (Халон или другой чистый агент, пожалуйста).
    Помните правило № 1 выше.
    Когда сомневаетесь, покиньте комнату . Позаботьтесь о своем дыхании: используйте респиратор или кислородную маску. Это может спасти ваше здоровье в случае химического пожара.

  4. Установите предел и придерживайтесь его
    Точнее, установите два :

    • Условие («Насколько я могу это позволить?») и
    • Время («Как долго я буду продолжать пытаться найти проблему до слишком рискованной?»).

    Ограничения, которые вы установили, также могут использоваться, чтобы ваша команда начала упорядоченное завершение затронутой области, поэтому, когда вы DO тянете силу, вы не сбиваете кучу активных машин, а ваш время восстановления будет намного короче, но помните, что если упорядоченное выключение занимает слишком много времени, вам может потребоваться несколько сбоев системы во имя безопасности.

  5. Доверяйте своей кишке
    Если вы беспокоитесь о безопасности в любое время, вызовите устранение неполадок и очистите комнату.
    Вы можете или не можете отказаться от комнаты, исходя из чувства кишки, но перегруппировка вне помещения (относительно) безопасности разумна.

Если нет непосредственной опасности, вы можете принять участие в местном пожарном отделе, прежде чем предпринимать какие-либо решительные действия, такие как выпуск EPO или чистых агентов. (Они могут сказать вам сделать это в любом случае: их мандат заключается в защите людей, а затем собственности, но они, очевидно, эксперты в борьбе с пожарами, поэтому вы должны делать то, что они говорят!)

  

Мы рассмотрели это в комментариях, но это также можно обобщить и в ответе - @DeerHunter, @Chris, @Sirex и многие другиек обсуждению

ответил HostMyBus 11 MonEurope/Moscow2017-12-11T17:24:22+03:00Europe/Moscow12bEurope/MoscowMon, 11 Dec 2017 17:24:22 +0300 2017, 17:24:22
181

Камера с тепловизионной камерой могла бы выполнить эту работу и позволить вам определить, где находится перегрев. Подобное устройство позволит вам идентифицировать происхождение пожара или сжигание в комнате, заполненной дымом.

ответил ddalcero 4 PMpThu, 04 Apr 2013 18:29:55 +040029Thursday 2013, 18:29:55
135

Вы ничего не делаете . Вы покидаете опасную среду, потому что все, что накачивается во всей комнате, опасно для вашего здоровья и может действительно испортить ваши легкие. Если в комнате есть какой-то едкий запах, который вы не можете найти, позвоните (911 | 112 | 999 | какой номер экстренной службы соответствует вашей юрисдикции), и пусть пожар (бригада отдела компании) разобратся, пока они в бутылках.

Компоненты компьютеров содержат всевозможные интересные химикаты, включая ртуть , кадмий , немедленно опасна для жизни и здоровья .

... так что, если что-то горит, не трать часы, обнюхивая пары. Если вы не можете идентифицировать его и немедленно действовать, чтобы скрыть его, выйдите.

ответил Jeff Ferland 5 AMpFri, 05 Apr 2013 08:59:06 +040059Friday 2013, 08:59:06
76

Если у вас был надлежащий мониторинг на ИБП (обычно через SNMP), само устройство должно было запустить колокола в вашей системе мониторинга. Если это не так, поговорите со своим продавцом об этом. Он либо неисправен, либо ваша система мониторинга настроена неправильно.

Если что-то активное на самом деле горит, оно должно каким-то образом жаловаться на это или просто отключиться от сети, что также должно вызвать тревогу.

Если это что-то вроде фактического рельса власти, сжигающего изоляцию, и это не на умном PDU, тогда мы вернемся к вашему первоначальному вопросу, который «как мне найти горящую вещь?» И я считаю, что правильный ответ: «Поразите EPO и выясните, что ваши серверы производства, вероятно, не настолько важны, чтобы рисковать жизнью».

ответил mfinni 4 PMpThu, 04 Apr 2013 18:27:26 +040027Thursday 2013, 18:27:26
43

Это одна из тех ситуаций, когда

XKCD Die Hard sysadmin

не применяется, вы должны позвонить профессионалу

Пожарный в защитном снаряжении

Все остальное просто глупо.

ответил mfinni 4 PMpThu, 04 Apr 2013 18:27:26 +040027Thursday 2013, 18:27:26
40

Как человек, чья прежняя карьера была как электронная технология, у меня есть опыт с «горящими запахами», которые не были огнем. Это не редкость.

Я бы не закрыл дата-центр для запаха. Дым - другое дело, что-то действительно горит (обычно, но танталовый конденсатор размером с горошину может заполнять комнату дымом тоже). Удивительно, какой запах может иметь жареный компонент в блоке питания.

Термометр TIC или IR (полезный инструмент и намного дешевле, чем TIC) не обязательно будет показывать его, поскольку компонент не генерирует много тепла вообще, и он находится внутри корпуса. Но проверьте, не работают ли устройства, используйте инструменты мониторинга. Для такого запаха, то 95% времени это будет источник питания, влияющий на производительность всего устройства.

ответил Malcolm 5 PMpFri, 05 Apr 2013 14:49:17 +040049Friday 2013, 14:49:17
19

Мне нравятся ответы на ИК-изображение или термометр, но, возможно, это поможет и реальному «детектору запаха». В конце концов, что вызвало вашу осторожность, был запах. Дым, тепло, ИК и т. Д. - все суррогаты.

Что-то вроде этого: от Shinyei. Я лично никогда их не использовал или даже видел, как они использовались в центре данных. Но, по крайней мере, теоретически это должен быть аккуратный инструмент. Если у вас есть деньги, потраченные на эту штуковину.

http://www.sca-shinyei.com/odormeter или http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

Это дает вам силу запаха, а также классификацию. Таким образом, находка на запах должна быть возможной. Конечно, Дьявол в деталях. Насколько он чувствителен, маскируя запах запаха фона и т. Д.

Одно преимущество перед измерениями, основанными на температуре, заключается в том, что часто запах возникает в гораздо более ранней точке или пороге. Или, если перегретый компонент скрыт теле /​​скрытой проводкой и т. Д., Легче обнаружить молекулы, выходящие, чем прямая видимая точка.

Другая ситуация - запах, не связанный с теплом. У нас была утечка контура охлаждения, и запахи охлаждающей жидкости были особенными. Я даже не пойду в древний случай грызуна, мертвого в протоках. :)

Я был удивлен, насколько чувствительны эти датчики. Очевидно, что H2S /меркаптаны и т. Д. (Обычные преступники) обнаруживаются на уровнях субчастиц.

введите описание изображения здесь>> </p></body></html>

ответил curious_cat 5 PMpFri, 05 Apr 2013 16:50:31 +040050Friday 2013, 16:50:31

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132