По словам генерального директора British Airways Алекса Круза, причиной вчерашних проблем авиакомпании стала «проблема с электроснабжением», которая повлекла за собой глобальный сбой компьютерных систем. Круз заверил, что нет никаких оснований полагать, что это была кибератака.
Ситуацию прокомментировал инженер с опытом работы в IT более 20 лет Валерий Хромов, в настоящее время занимающийся надежностью и производительностью сайта и инфраструктуры Facebook. Специально для Russian Gap он поделился личной оценкой и рассказал об особенностях эксплуатации больших систем и реагирования на подобные инциденты:
Проблема с электричеством – одна из типичных проблем в IT. Обычно она приводит к недоступности сервисов в пострадавшем дата-центре и в некоторых случаях – к потере данных. Даже после возобновления подачи электричества требуется время на восстановление сервисов и данных.
У любой серьезной компании должен существовать план по предотвращению проблем с энергоснабжением:
В каждом дата-центре должны быть источники резервного питания, которые используются в случае отключения основного.
Необходимо использовать несколько географически распределенных дата-центров, а сервисы и данные должны быть распределены по ним таким образом, чтобы отключение одного датацентра не приводило к неработоспобности сервисов в целом или к потерям данных.
Для этого крупные компании делают резервные копии данных. Также должна быть автоматизированная процедура восстановления этих данных из резервных копий. Эту процедуру нужно регулярно проверять.
Она должна быть автоматизирована и также регулярно проверяться.
Насколько я знаю, BA владеет инфраструктурой (т.е. дата-центрами), но всю работу вынесла на аутсорс в Индию через компанию Tata.
Скорее всего, BA использует несколько дата-центров с резервными источниками питания, но сервисы и данные не распределены по ним равномерно. В противном случае отключение электричества не привело бы к таким катастрофическим последствиям. Кроме того, похоже, что у ВА неработоспособна автоматизация восстановления сервисов и данных, иначе восстановление заняло бы гораздо меньше времени.
Хорошая IT-инфраструктура — это как хорошая страховка. Можно сэкономить на страховке, не покупая ее, но при страховом случае потери оказываются многократно выше мнимой экономии.
Фото: https://www.facebook.com/britishairways
(мнение, высказанное в статье, не является официальным мнением компании Facebook)
— Можем сделать шаг к самому началу истории? Как ваша семья пришла в гостиничный бизнес…
«Минотавр» Андрея Звягинцева (Франция-Латвия-Германия) Кадр из фильма «Минотавр» Андрея Звягинцева. Фото: Palace Films Несомненное событие…
Нынешний визит писателя на британские земли начался еще в пятницу, 29 мая. В пространстве старинной…
Всезнающий интернет подсказывает, что название ливерпульской улицы Dungeon Lane не имеет никакого отношения к dungeon, подземелью или темнице.…
Оперный фестиваль Glyndebourne Где: Glyndebourne, New Rd, Lewes BN8 5UUКогда: с 21 мая по 30 августаБилеты по ссылке.Фестиваль в оперном…
Мэрилин Монро, из серии «Blanket», 1946 г., фото: Андре де Динес, / Коллекция MUUS Больше…