По словам генерального директора British Airways Алекса Круза, причиной вчерашних проблем авиакомпании стала «проблема с электроснабжением», которая повлекла за собой глобальный сбой компьютерных систем. Круз заверил, что нет никаких оснований полагать, что это была кибератака.
Ситуацию прокомментировал инженер с опытом работы в IT более 20 лет Валерий Хромов, в настоящее время занимающийся надежностью и производительностью сайта и инфраструктуры Facebook. Специально для Russian Gap он поделился личной оценкой и рассказал об особенностях эксплуатации больших систем и реагирования на подобные инциденты:
Проблема с электричеством – одна из типичных проблем в IT. Обычно она приводит к недоступности сервисов в пострадавшем дата-центре и в некоторых случаях – к потере данных. Даже после возобновления подачи электричества требуется время на восстановление сервисов и данных.
У любой серьезной компании должен существовать план по предотвращению проблем с энергоснабжением:
В каждом дата-центре должны быть источники резервного питания, которые используются в случае отключения основного.
Необходимо использовать несколько географически распределенных дата-центров, а сервисы и данные должны быть распределены по ним таким образом, чтобы отключение одного датацентра не приводило к неработоспобности сервисов в целом или к потерям данных.
Для этого крупные компании делают резервные копии данных. Также должна быть автоматизированная процедура восстановления этих данных из резервных копий. Эту процедуру нужно регулярно проверять.
Она должна быть автоматизирована и также регулярно проверяться.
Насколько я знаю, BA владеет инфраструктурой (т.е. дата-центрами), но всю работу вынесла на аутсорс в Индию через компанию Tata.
Скорее всего, BA использует несколько дата-центров с резервными источниками питания, но сервисы и данные не распределены по ним равномерно. В противном случае отключение электричества не привело бы к таким катастрофическим последствиям. Кроме того, похоже, что у ВА неработоспособна автоматизация восстановления сервисов и данных, иначе восстановление заняло бы гораздо меньше времени.
Хорошая IT-инфраструктура — это как хорошая страховка. Можно сэкономить на страховке, не покупая ее, но при страховом случае потери оказываются многократно выше мнимой экономии.
Фото: https://www.facebook.com/britishairways
(мнение, высказанное в статье, не является официальным мнением компании Facebook)
«Зима» сразу выехала на место: посмотреть, поздравить и, да, привести себя в порядок после насыщенного…
«Матисс и Маргарита: дань уважения отцу» Музей Современного искусства (МАМ) 4 апреля – 24 августаБилеты на…
К каждой книге из серии «Приключений Эраста Фандорина» и «Приключения сестры Пелагии» Борис Акунин написал…
Эта история произошла еще в XVIII веке, и причина, по которой конец финансового года был…
В первый раз мы (мы — это команда проекта «Зима») пришли в «мэри-джейнах» с тремя…
Для многих поклонников первой экранизации "Гарри Поттера" ни один актер не сможет превзойти оригинальный каст,…