По словам генерального директора British Airways Алекса Круза, причиной вчерашних проблем авиакомпании стала «проблема с электроснабжением», которая повлекла за собой глобальный сбой компьютерных систем. Круз заверил, что нет никаких оснований полагать, что это была кибератака.
Ситуацию прокомментировал инженер с опытом работы в IT более 20 лет Валерий Хромов, в настоящее время занимающийся надежностью и производительностью сайта и инфраструктуры Facebook. Специально для Russian Gap он поделился личной оценкой и рассказал об особенностях эксплуатации больших систем и реагирования на подобные инциденты:
Проблема с электричеством – одна из типичных проблем в IT. Обычно она приводит к недоступности сервисов в пострадавшем дата-центре и в некоторых случаях – к потере данных. Даже после возобновления подачи электричества требуется время на восстановление сервисов и данных.
У любой серьезной компании должен существовать план по предотвращению проблем с энергоснабжением:
В каждом дата-центре должны быть источники резервного питания, которые используются в случае отключения основного.
Необходимо использовать несколько географически распределенных дата-центров, а сервисы и данные должны быть распределены по ним таким образом, чтобы отключение одного датацентра не приводило к неработоспобности сервисов в целом или к потерям данных.
Для этого крупные компании делают резервные копии данных. Также должна быть автоматизированная процедура восстановления этих данных из резервных копий. Эту процедуру нужно регулярно проверять.
Она должна быть автоматизирована и также регулярно проверяться.
Насколько я знаю, BA владеет инфраструктурой (т.е. дата-центрами), но всю работу вынесла на аутсорс в Индию через компанию Tata.
Скорее всего, BA использует несколько дата-центров с резервными источниками питания, но сервисы и данные не распределены по ним равномерно. В противном случае отключение электричества не привело бы к таким катастрофическим последствиям. Кроме того, похоже, что у ВА неработоспособна автоматизация восстановления сервисов и данных, иначе восстановление заняло бы гораздо меньше времени.
Хорошая IT-инфраструктура — это как хорошая страховка. Можно сэкономить на страховке, не покупая ее, но при страховом случае потери оказываются многократно выше мнимой экономии.
Фото: https://www.facebook.com/britishairways
(мнение, высказанное в статье, не является официальным мнением компании Facebook)
Когда: 12 января, 19:00Где: Marylebone Theatre, 35 Park Rd, London NW1 6XT, UK На встрече…
1. «Девяноска» — Виктор Шендерович Сорок лет российской истории — от раннего Андропова до позднего…
В спектакле Жени Беркович хорошо известное предстает в новом, почти парадоксальном свете. Гротескные образы соседствуют…
Принц Эндрю и шпионский скандал Эта история началась еще на прошлой неделе, но настоящая битва…
В ноябре 2024 года Софья Малемина представила свою первую персональную выставку Abiogenesis в сотрудничестве с…
Про «Снежное шоу» «Снежное шоу» живет на сцене уже больше тридцати лет — с…