Когда мелкие ошибки привели к огромным последствиям

Некоторые катастрофы созревают медленно, с годами игнорируемыми предупреждениями. Другие происходят мгновенно — из-за одной маленькой ошибки в огромной и сложной системе. Эти бедствия не требовали саботажа, вторжения или пренебрежения. Достаточно было одной строки неправильного кода, неверного датчика или незамеченной ошибки в таблице. В каждом из этих девяти случаев миллиарды долларов или жизни людей зависели от того, чтобы единственное звено системы работало правильно…

9. Ошибка с единицами измерения Mars Climate Orbiter (1999)

NASA потеряло космический аппарат стоимостью $193 млн из-за простой математической ошибки

Марсианский климатический орбитер NASA был частью миссии с двумя спутниками для изучения климата Марса и изменений на его поверхности. Спутник успешно стартовал и работал нормально, пока не подошел к марсианской орбите. Тогда он приблизился слишком близко к планете, сгорел в атмосфере и исчез навсегда. Причина была удивительно проста: Lockheed Martin передала данные о работе двигателей в фунт-секундах, а инженеры NASA неправильно интерпретировали эти данные как ньютон-секунды. За несколько месяцев это незначительное несоответствие единиц привело к ошибке в траектории на 170 километров. Тогда команда миссии заметила несоответствия в навигационных данных, но списала их на различия в моделях. Программный чек-лист передачи не уточнил единицы измерения. Не было централизованного хранилища кода или системы для проверки данных на уровне всего проекта. Потеря показала, насколько хрупкими могут быть космические миссии, когда разные подрядчики используют разные стандарты. Единственная конвертация — одна умножительная ошибка, которая так и не произошла — стоила целой миссии, стоимость которой составила 125 миллионов долларов, созданной годами труда сотен инженеров.

космический корабль а орбите МКС

8. Великая северо-восточная темнота (2003)

Что на самом деле произошло во время блэкаута 2003 года?

14 августа 2003 года электростанции на северо-востоке США и в части Канады оказались без электричества, что затронуло 55 миллионов человек. Все началось с одного слишком большого дерева в Огайо, которое коснулось линии передачи и вызвало ее отключение. Обычно сеть компенсирует такие сбои, перераспределяя энергию, но программное обеспечение мониторинга FirstEnergy не предупредило операторов о нестабильности сети. Линии, перегруженные электричеством, начали провисать и зацепляться за деревья, что вызвало поочередные отключения. Через два часа блэкаут охватил территорию от Мичигана до Нью-Йорка. Проблемы не ограничивались только электричеством — системы водоснабжения, очистные сооружения, аэропорты, светофоры и метро перестали работать. Города, такие как Кливленд, лишились водоснабжения. Торонто было парализовано. Нью-Йорк эвакуировал станции метро в темноте. Хотя сеть была спроектирована с учетом резервных решений, все они зависели от своевременной реакции операторов. Один сломанный механизм оповещения — не замеченная точка отказа в цепочке «человек-машина» — позволил предотвратимому событию перерасти в худший блэкаут в истории Северной Америки.

Свечи в темноте

7. Ошибки в миграции ИТ-системы TSB (2018)

TSB отключает цифровые сервисы после сбоя при обновлении

Когда британский банк TSB отделился от своего материнского холдинга Lloyds Banking Group, он запланировал миграцию 1,3 миллиарда записей на новую ИТ-систему, управляемую его испанским владельцем Sabadell. Банк отключил системы на выходные и приступил к переносу данных. Однако, когда сервисы вернулись онлайн, началась паника. Клиенты обнаружили нулевые балансы, исчезнувшие платежи, заблокированные счета и, в некоторых случаях, доступ к чужим данным. Очереди в отделениях вылились на улицы, а телефонная поддержка не справилась с наплывом звонков. Проблема заключалась в несоответствии структуры данных старой и новой платформы, в неправильной логике сопоставления данных, скрытой в сценарии миграции. Система прошла внутренние предварительные тесты, но те не моделировали полные рабочие нагрузки или пограничные ситуации. Как только ошибки проявились, восстановление затруднялось отсутствием опций отката и неполными журналами аудита. Банк привязал свою цифровую идентичность к одному хрупкому процессу передачи, и когда он дал сбой, рухнули и доверие клиентов, и уверенность инвесторов, и регуляторное одобрение.

6. Авария Amazon S3 из-за опечатки (2017)

Сбой в Amazon нарушил работу «большой части интернета»

Amazon Web Services S3 (Простой сервис хранения) используется миллионами компаний для хранения изображений, файлов и веб-сервисов. В феврале 2017 года техник, пытаясь устранить ошибку в системе биллинга, выполнил команду, предназначенную для удаления небольшого числа серверов. Однако команда случайно удалила гораздо большую группу серверов, включая критически важный индексный сервер для всей системы S3 в регионе США Восток 1. Это удаление лишило доступности данные о местоположении и метаданные для объектов S3 на сотнях крупных сайтов. Trello, Slack, Netflix, Giphy, Medium и даже часть собственного панели состояния AWS стали недоступны. Системы мониторинга не работали, потому что они тоже зависели от S3. Пользователи не могли проверить страницу статуса AWS, чтобы понять, что произошло. AWS построил надежную инфраструктуру с резервированием по зонам, но не предусмотрел резервирование внутри самого управляющего слоя, который не имел защит от ошибок оператора. Эта одна неверно введенная команда, выполненная с доступом к основным функциям, парализовала часть интернета на четыре часа.

штаб-квартира амазон в сиэтле

5. Одна ячейка в таблице, из-за которой обанкротилась миллиардная торговая фирма (2012)

Компания теряет $440 миллионов за 28 минут, начинается хаос

Knight Capital Group была крупным игроком на американских фондовых рынках, ответственным за около 10% всех торговых операций в то время. В августе 2012 года компания запустила новый торговый алгоритм. Но по ошибке они активировали старую, не используемую программную настройку в рабочем коде. Это произошло потому, что инженеры переделали старые модули кода и не отключили тестовую функцию «Power Peg», которая начала отправлять ошибочные торговые ордера с молниеносной скоростью на десятки бирж. Всего за 45 минут Knight потеряла $440 миллионов, что вызвало колоссальные колебания цен по 148 акциям. Причина заключалась в одной переменной в конфигурационном файле, который выглядел как таблица, и который не был обновлен правильно на одном из восьми серверов. Этот единственный сервер продолжал посылать ордера на покупку без ограничений. Другие системы не могли распознать его как неисправный, потому что он не выходил из строя — просто работал катастрофически неверно. У компании не было аварийного переключателя для прекращения runaway-торгов, и она не смогла быстро отменить ошибочную логику. Когда наконец был выключен сервер, Knight уже потеряла треть своей рыночной стоимости, что фактически поставило крест на ее независимости как фирмы.4. Скандал с ненамеренным ускорением автомобилей Toyota (2009–2010)

4. Скандал с ненамеренным ускорением автомобилей Toyota (2009–2010)

Ошибки Toyota обошлись в $2,3 миллиарда

В конце 2009 года автомобили Toyota начали связываться с рядом аварий, причиной которых стало ненамеренное ускорение. Сначала проблемы списывались на коврики и залипшие педали, но более глубокие исследования показали, что в некоторых моделях была проблема в системе электронного контроля дросселя, которая могла, при определенных электрических условиях, заблокировать акселератор в открытом положении без явного механизма для его отключения. В таких моделях больше не было механической связи — система тормозного контроля и дополнительные резервные механизмы не были внедрены во всех моделях. Самым трагичным примером стал звонок 911 с участием неработающего сотрудника патрульной службы, чьи Lexus разогнался до очень высокой скорости и врезался, унеся жизни четырех человек. Расследования показали, что инженеры Toyota игнорировали или умалчивали о рисках в программном обеспечении на протяжении нескольких лет, и компания ранее тихо решала подобные проблемы. Когда NASA проанализировала код, было установлено, что он был плохо структурирован, труден для тестирования и не имел должных резервных механизмов. Уязвимость в электронной системе была встроена в архитектуру автомобиля, и отказ одного датчика или логической цепочки приводил к неконтролируемому ускорению, что становилось фатальным.

3. Неправильно подключенный датчик, который привел к крушению самолета (2009)

Что случилось с рейсом 447?

Рейс 447 Air France исчез в 2009 году в Атлантическом океане, направляясь из Рио-де-Жанейро в Париж. В ходе расследования, проведенного после трагедии, данные с черных ящиков показали, что трубки Пито — маленькие датчики, измеряющие скорость самолета — замерзли во время грозы. Это вызвало несоответствие в данных, что привело к отключению автопилота. Пилоты, не зная своей истинной скорости и высоты, попытались поднять нос самолета, ошибочно полагая, что он слишком быстро снижался. Это привело к сваливанию на высоте 38 000 футов, и самолет больше не смог выйти из этого состояния. У Airbus A330 было несколько систем, предназначенных для обработки отказов оборудования, но эти системы зависели от точных данных с датчиков. Когда три трубки Пито одновременно замерзли, резервные механизмы не сработали. Что еще более критично, пилоты не были должным образом подготовлены к такому виду отказа, особенно к тому, который был вызван противоречивыми данными о полете. В этот момент судьба самолета зависела от работы трех маленьких трубочек, которые не смогли выполнить свою функцию, и в результате было потеряно 228 жизней.

разбившийся самолет

2. Ошибка в формуле Excel, которая скрыла пандемию (2020)

Великобритания потеряла 16 000 случаев коронавируса из-за ошибки в Excel

В сентябре 2020 года Public Health England использовала Microsoft Excel для отслеживания результатов тестов на COVID-19, импортируя ежедневные обновления из лабораторий в центральную таблицу. Однако таблица была сохранена в устаревшем формате .XLS, который имел ограничение в 65 536 строк. Как только это число было превышено, новые результаты тестов просто игнорировались — в результате почти 16 000 положительных случаев никогда не были переданы в органы отслеживания контактов. Несколько дней потенциально зараженные люди продолжали ходить по улицам, не зная о своем статусе, и распространяли вирус дальше, пока местные здравоохранительные службы работали с неполными данными. Проблема не заключалась в сбое теста, кибератаке или сбое сервера — это был устаревший формат файла, который продолжал использоваться в условиях национального кризиса. Ответственные за систему не настроили автоматических оповещений о потерянных данных, а система не была проверена специалистами ИТ перед внедрением. В конечном итоге, реакция страны на пандемию была подорвана ограничением программного обеспечения, которое было задокументировано еще в 1987 году, но никто не проверил, не применимо ли оно к их текущему случаю.

1. Катастрофа с «Челленджером»: ошибка с уплотнением (1986)

Самая известная катастрофа в истории человечества

Космический шаттл «Челленджер» разрушился через 73 секунды после старта, унеся жизни всех семи астронавтов. Причиной катастрофы стало повреждение уплотнителя O-образного кольца на одном из твердотопливных ускорителей. Температура в тот день была необычно низкой, ниже испытанной температуры уплотнителя, и инженеры подрядчика Morton Thiokol предупредили, что резина может затвердеть и не обеспечит герметичность соединения. Однако NASA, под давлением необходимости соблюсти расписание запусков и с учетом того, что миссия была показана в прямом эфире для школьников, проигнорировала предупреждение и продолжила запуск. Когда шаттл стартовал, O-образное кольцо на правом ускорителе не успело быстро расшириться, чтобы герметично закрыть стыковку. Пламя вырвалось наружу, воспламенив внешний топливный бак, что и привело к разрушению шаттла прямо перед национальной аудиторией. Расследования показали, что проблему с уплотнителем уже знали внутри компании, и инженеры не раз поднимали этот вопрос в документах. Вся безопасность шаттла зависела от работы уплотнителя размером с браслет, и когда эта часть не сработала, катастрофа стала неизбежной, что поставило крест на самой амбициозной космической программе Земли.

петарда в темноте
Интересные новости