В этой статье своими советами о том, как снизить риски последствий и обезопасить свой интернет-магазин, поделился руководитель практики разработки AWG Денис Калинин.
Что такое крупный сбой
Крупный сбой — это серьезное техническое событие, которое приводит к недоступности или снижению работоспособности критически важных систем и сервисов в сети.Причин у таких аварий может быть много. Иногда они происходят из-за проблем с оборудованием, иногда – из-за ошибок в программном обеспечении, неправильной настройки сети и не только.
Например, в 2011 году взломали сервисы Sony Playstation Network и Qriocity, в результате чего удалось восстановить работу только через 24 дня. Компания Sony потеряла $171 млн.
В 2023 г. произошел 12-часовой сбой в Австралии. Несколько маршрутизаторов для защиты от перегрузки были отключены. Итог: пострадало 400 тысяч организаций, в том числе и сам зачинщик — оператор беспроводной связи Optus, который потерял 2 млрд австралийских долларов.
Какой вред приносят сбои
Сетевые сбои — серьёзная проблема для крупных коммерческих ресурсов, маркетплейсов, интернет-магазинов:- Магазин может потерять доступ к своему сайту, что приведет к потере продаж и клиентов.
- Если сбой затронул платежные системы, бизнес может столкнуться с финансовыми потерями и проблемами с обработкой заказов.
- Репутация магазина может пострадать из-за недоступности сайта или длительного времени ожидания восстановления работоспособности.
- Если перебой длится больше часа или даже больше суток, появляется риск рассинхронизации данных.
Например, 30 января 2024 года российские пользователи не могли посетить сайты несколько часов, потому что произошел массовый отказ основных провайдеров интернет-услуг из-за сбоя DNSSEC. Нарушение работы этого протокола сильно упрощает жизнь злоумышленникам: они могут перенаправить запрос пользователя на «подставную» страницу и украсть его данные.
Как защитить интернет-магазин от крупного сбоя
К возможным проблемам можно и нужно готовиться. Вот, что мы рекомендуем:- Регулярно отслеживайте состояние сети и серверов.
- Делайте резервные копии критически важных систем и данных. Например, в случае сбоя в DNSSEC - “резервные” домены в разных зонах (.com, .shop, .store, .org и др), но пользователи все равно чаще заходят на какой-то конкретный домен, поскольку он в закладках, в поисковике.
- Логируйте работу каждого компонента. Наличие логов — половина успеха в решении задачи.
- Применяйте практики CI/CD для автоматизации процесса развертывания и обновления приложений, чтобы быстро адаптироваться к внешним изменениям.
- Обучайте сотрудников действиям в экстренных ситуациях.
- Проводите регулярные тренировки.
- Тестируйте механизмы восстановления после сбоев.
- Прокачивайте коммуникационные навыки с поставщиками оборудования и интернет-провайдерами для оперативного решения проблем.
Если сбой все-таки случился
Здесь правило №1: действовать оперативно, скоординировано и «хладнокровно». Что мы рекомендуем делать:1. Найти причину сбоя
Проблема может таиться в разных местах: от сетевой атаки до простого человеческого фактора.Наш чек-лист, что нужно проверить, если произошел сбой:
- Инфраструктура провайдера: проверяем целостность DNS-записей и анализируем журналы DNS-сервера. Используем инструменты мониторинга доступности: Pingdom, Nagios, можно использовать и Zabbix.
- Своя сетевая инфраструктура: отслеживаем логи сетевых устройств и анализируем трафик на предмет аномалий с помощью специальных сервисов для обнаружения DDoS-атак.
- Хостинг-провайдер (если пользуетесь его услугами): следим за статусом серверов и сервисов хостинг-провайдера, многие из которых позволяют настроить соответствующие оповещения.
- SSL: контролируем срок действия сертификата, чтобы избежать возможных проблем с безопасностью.
На проектах клиентов мы используем встроенные инструменты мониторинга хостинг-провайдера и, чаще всего, Zabbix. Реагируем на события, используя настроенные оповещения в соответствии с SLA. Более подробно о том, как мы помогаем нашим клиентам, рассказываем в этой статье.
2. Провести анализ уровня воздействия на пользователей и оценить масштаб проблемы
Уровень воздействия на пользователей может быть разным в зависимости от ситуации. Например, присутствует задержка банковских операций, проблемы с покупками на торговых онлайн-площадках.Для компаний последствия сбоя могут быть более значительными — это потеря прибыли и нарушение договорных обязательств.
3. Восстановить работоспособность системы
В качестве временного восстановления работы сайта команда технической поддержки могла бы настроить временное резервное DNS-разрешение для сайта. А дальше — в обязательном порядке оповестить пользователей о текущем статусе.Можно ли на этом закончить? Нет, отслеживание работы инфраструктуры — цикличный процесс, который состоит из пяти шагов:
- проанализировать и выявить ущерб;
- найти временное решение;
- поддерживать коммуникацию с пользователями;
- выполнить полноценное восстановление работы и следовать рекомендациям вашего провайдера;
- мониторить — потому, что бывает не все восстанавливается моментально.
Итоги
В любых обстоятельствах, связанных с непредвиденными сложностями, успех сопутствует тому, кто тщательно отслеживает состояние инфраструктуры, учитывает потенциальные угрозы и имеет библиотеку решений для преодоления препятствий.Если с сайтом есть проблемы, частые неполадки, тормозящие работу бизнеса, — поможет технический аудит с дорожной картой изменений. Наша команда технической поддержки поможет в поддержке стабильной работы сайта с минимизацией времени простоя.