Бесперебойное питание

BBU в хранилищах или UPS в «кровавом» энтерпрайзе или телекоме дело обычное. Специалисты смонтировали, гарантия вендора, всё в фирменных стикерах HPE и прочих модных брэндов. Корпоративный пользователь уверен, что у него всё под контролем.

Но так ли всё?

В этой статье вас ждёт правда про железяки содержащие аккумуляторные батареи, которые должны обеспечивать надёжное хранение и бесперебойную работу серверов.

Возьмём, к примеру, дисковое хранилище.

Если батарея в BBU неисправна или работает, но срок гарантированной работоспособности батареи истёк, т.е. батарее опасно доверять – хранилище отключает функцию Writeback Cache*. 

Новая ли батарея?

Однажды в наш сервис поступило несколько ящиков этих BBU. На корпуах BBU дата производства 2018. Вскрываем. Действительно европейский производитель, всё внутри в стикерах и заводских отметках, которые раскрывают любопытную историю:

  • батареи изготовлены в конце 2013 года;
  • первый раз протестированы и установлены в BBU в 2014;
  • по какой-то причине повторно перезаряжены на заводе и вновь установлены в 2015;
  • но на корпусе как вы помните дата производства 2018;
  • в системе хранилища дата установки 2019 и Expiration date только 2021!

Алармов нет. Батареи ещё работают, но совершенно не соответствуют требованиям производителя.

Особенности батарей для резервного питания систем обработки данных.

В бесперебойниках обычно установлены необслуживаемые батареи c увеличенным сроком службы. Такие имеют свои конструкционные особенности, т.к. работа на нагрузку для них скорее аварийный режим. Они спроектированы быть постоянно готовыми, постоянно подзаряжаться и желательно никогда не включаться :).

Производители называют их необслуживаемыми, дают на такие батареи гарантию 2-3 года, а срок службы декларируют от 5 до 10 лет. Важно, что последнее – скорее рекламный ход, чем реальность.

Вас не должны вводить в заблуждение маркетинговые примочки. Реальность сурова. Это обыкновенные свинцово-кислотные аккумуляторы, практически такие же как в вашем автомобиле. Модные буквы AGM – означают, что пластины обёрнуты дополнительно стеклотканью, это компенсирует газообразование, дополнительно защищает пластины от осыпания и закорачивания.

Батарейные блоки – это последовательно соединённые батареи.

Что важно знать айтишникам?

Батарея, стоящая внутри горячего хранилища или сервера, деградирует быстрее. 
Даже если на корпус нанесена надпись 60 градусов, в документации производителя на батарею максимально допустимый нагрев – 50 градусов. Причём 50 это не так уж и много.

Батарея нормально работает в положении вентиляционными отверстиями вверх. Даже если на батарее написано, что она может работать в любом положении. В документации всегда есть рекомендация – эксплуатировать в правильном :). Не на боку и не вверхтормашками.

Батарею нельзя трясти и ударять. Если уже произошло частичное осыпание пластин, а стеклоткань оборачивает по две пластины, то можно закоротить.

В батарейном модуле практически всегда батареи соединены последовательно, например, 12 + 12 + 12 + 12 = 48, даже когда нагрузка питается 12V. Встроенный контроллер будет повышать/понижать и стабилизировать 40-50 -> 12.

При этом практически никогда не используется балансная зарядка. Контроллер заряжает всю цепочку батарей как одну большую виртуальную, безотносительно состояния отдельных аккумуляторов последовательно соединённых. Он не контролирует степень заряда каждого аккупулятора в модуле. Дополнительно следит только за температурой (контроль перегрева). Это важно. Если один из аккумуляторов имеет значительный саморазряд, неисправен или даже закорочен, система питания этого не увидит, не просигнализирует. Пока вся цепочка аккумуляторов не достигнет критического состояния, контроллер будет наивно считать, что заряжаемый ею виртуальный аккумулятор лишь немного недозаряжен.

Так в BBU (или любом UPS) вполне может произойти ситуация, когда один из нескольких аккумуляторов вообще мёртв и работает как перемычка. Контроллер будет считать, что его аккумулятор недозаряжен и будет его постоянно подзаряжать, но не сообщит системе о фатальной неисправности. При пропадании питания, когда вся нагрузка хранилища ляжет на батареи, последние разрядятся стремительно, значительно быстрее, чем система рассчитывает. Ведь часть батарей не только не выдают, но сами потребляют ток ускоряя разряд реально работающих.

Что делать?

  1. Следите за сообщениями вашей системы питания и выполняйте инструкции производителя, но не думайте, что это панацея.
  2. Предусмотрите в архитектуре возможность планового останова и вывода из работы систем питания.
  3. Заключите договор с сервисной организацией, которая будет выполнять плановое ТО.
  4. Каждые 2 года отключайте систему питания, сдавайте батарейные блоки на проверку (внутреннее сопротивление, ёмкость, саморазряд), контроллеры заряда для контроля состояния конденсаторов (вторая причина выхода из строя систем питания).

* Writeback Cache – функция при которой хранилище принимает данные от сервера и помещает в оперативную память (кэш) не дожидаясь физической записи на диски. Сообщает серверу о завершении дисковой операции. Хранилище уверено, что оно запишет данные из оперативной памяти на диски в ближайшее время. Значительно повышает производительность дисковых операций, и серверов. Для работы функции обязательно наличие исправной системы резервного питания. При отключении функции производительность падает драматически. Пока хранилище физически не запишет данные на диски, серверам не сообщает о завершении операции, очереди обращения к дискам растут, серверы недовольны.