Tracker.ru На главную

Что делать, если сайт упал — чек-лист первых 5 минут

Алерт пришёл, сайт не отвечает. Что делать в первые 5 минут — пошагово, без паники. Шаблон сообщения хостингу и список самых частых причин падений.

Что делать, если сайт упал — чек-лист первых 5 минут

Пришёл алерт «сайт не работает». Что делать в первые 5 минут? Откройте сайт сами в инкогнито и с мобильной сети, посмотрите регион алерта и код ответа в письме, дальше — звонок хостингу или администратору с конкретными данными. Этот чек-лист — пошагово.

Подходит, если у вас есть uptime-мониторинг, а внутреннего DevOps-инженера или своей команды поддержки нет — алерт упал на вас, разбираться надо самому.

Шаг 1. Проверьте, что это не вы

Первое — убедитесь, что сайт реально лежит, а не сломалось локально. Проверка занимает 30 секунд и снимает половину ложных срабатываний.

  • Откройте сайт в обычном окне браузера, потом в режиме инкогнито — без расширений и кеша.
  • Откройте сайт с мобильной сети, отключив Wi-Fi на телефоне. Если по мобильному работает, а с домашнего интернета нет — проблема между вами и сайтом, а не у самого сайта.
  • Зайдите на сторонний пинг-сервис: downforeveryoneorjustme.com или isitdownrightnow.com. Если у них зелёная галочка — у вас локальные неполадки. Красная — проблема общая.
  • Если знаете команду nslookup, проверьте резолвинг с вашей машины: nslookup example.com. Получили адрес — DNS работает. Ошибку — домен не резолвится с вашего провайдера.

Домашний роутер, корпоративный VPN или антивирус иногда блокируют конкретный домен. Если сайт открывается с телефона по мобильному и не открывается с компьютера — проблема в вашей сети, а не на сайте.

Шаг 2. Посмотрите, из какого региона алерт

Откройте уведомление и найдите, из какого региона мониторинг зафиксировал падение. У Tracker.ru проверки идут из трёх регионов одновременно — Москва, Франкфурт, Алматы.

  • Упал только один регион. Скорее всего, локальная сетевая проблема: магистральный сбой у провайдера, маршрутизация, проблема у дата-центра, через который идёт проверка. Сайт у пользователей из других стран открывается, у части — нет. Подождите 5–10 минут: такие инциденты часто чинятся сами и снимаются автоматически.
  • Упали два региона из трёх. Уже похоже на серьёзный сбой. Проверьте, нет ли общего у двух упавших регионов — например, оба за пределами России и могут быть отрезаны от вашего сервера блокировкой.
  • Упали все три региона. Сайт лежит для всех. Время действовать — переходите к следующему шагу.

Если у вас включён только один регион проверок, информации меньше. В таком случае добавьте хотя бы второй — это в настройках монитора одной галочкой и стоит копейки. Падения «всех серверов мира» бывают в 100 раз реже, чем падения одного маршрута.

Шаг 3. Посмотрите код ответа и время

В тексте уведомления указан HTTP-код ошибки или тип сбоя. От него зависит, куда смотреть в первую очередь. Запомните или скопируйте этот код — он понадобится при разговоре с хостингом.

Что в алерте Что произошло Куда смотреть
500 Internal Server Error Приложение упало с ошибкой Логи приложения, последний деплой, БД
502 Bad Gateway Веб-сервер не дозвонился до приложения Запущен ли процесс PHP/Node/Python, упал ли мастер-процесс
503 Service Unavailable Сервер перегружен или закрыт на обслуживание Нагрузка, лимиты, не включён ли режим maintenance
504 Gateway Timeout Приложение отвечает дольше таймаута Зависшие запросы к БД, тяжёлый код, нехватка ресурсов
Timeout / нет ответа Сервер не отвечает совсем Хостинг лежит, упал процесс, сетевой сбой
Connection refused Порт закрыт, сервис не слушает Не запущен веб-сервер, упал nginx/apache, перенастроен firewall
SSL error / certificate expired Истёк или сломан HTTPS-сертификат Срок действия, автообновление Let's Encrypt, неправильная конфигурация
DNS failure / NXDOMAIN Домен не резолвится Регистратор, NS-записи, оплачен ли домен

Самые частые причины простоя у небольших сайтов:

  • Истёк домен. Не оплачен счёт у регистратора. Проверяется командой whois example.com — покажет дату окончания.
  • Истёк SSL-сертификат. Автообновление Let's Encrypt сломалось, у пользователей в браузере красный замок.
  • Закончилось место на диске. База перестала писать, приложение возвращает 500.
  • Деплой с ошибкой. Час назад был релиз, всё работало — теперь нет. Откат до предыдущей версии чинит быстрее, чем разбор причины.
  • Хостинг упал. Никаких изменений у вас не было, сайт лежит — и не только ваш. Проверьте админ-панель хостинга и его status-page.

Соберите данные: какой код, какие регионы, во сколько началось. Это и есть то, что вы передадите дальше.

Шаг 4. Свяжитесь с хостингом или администратором

У вас есть всё, чтобы быстро написать. Шаблон сообщения в техподдержку или администратору сайта:

Здравствуйте. Сайт https://example.com недоступен с 14:32 МСК. Мониторинг показывает HTTP 502 из регионов Москва и Франкфурт; из Алматы — таймаут. Я проверил: сайт не открывается у меня и в инкогнито, на мобильной сети тоже, на downforeveryoneorjustme.com сообщают о недоступности. Из своих изменений: сегодня деплой не катили, пароли не меняли. Прошу проверить состояние сервера и логи.

Что важно в таком сообщении:

  • URL целиком, со схемой https://.
  • Время начала и часовой пояс. «Лежит уже час» бесполезно, «недоступен с 14:32 МСК» — конкретно.
  • Код ответа или тип ошибки — 502, timeout, SSL.
  • Регион проверки — откуда мониторинг проверял, а не где находитесь вы.
  • Что вы уже проверили — чтобы поддержка не присылала «попробуйте очистить кеш браузера».
  • Что менялось перед падением — деплой, миграция, обновление пакетов. Если ничего — так и напишите.

Если поддержка не отвечает 15–30 минут при заявленном SLA — эскалируйте через телефон, чат на сайте хостинга или форму инцидента.

Шаг 5. Уведомите пользователей

Параллельно с разбором — сообщите тем, кто пользуется сайтом. Молчание хуже плохих новостей: люди замечают, что сайт не открывается, и начинают предполагать худшее.

Минимальный набор каналов:

  • Status-page или баннер. Если основной сайт не открывается, баннер не поможет — нужен отдельный домен под status-page, вынесенный с другого хостинга.
  • Социальные сети и мессенджеры. Короткое сообщение в Telegram-канал, ВК-сообщество, X. Указывайте время начала, что делаете и когда ожидаете обновление.
  • Email-рассылка. Только если простой длится дольше часа и затрагивает оплачивающих клиентов. Иначе — лишний шум.

Шаблон сообщения:

Сайт временно недоступен с 14:32 МСК. Мы выясняем причину вместе с хостингом. Обновим в 15:00 МСК или раньше, если разберёмся быстрее. Извините за неудобства.

Без обещаний «вернёмся через 5 минут», если не уверены. Лучше через 30 минут написать «всё работает», чем «обещали пять минут — прошло сорок».

Что сделать, чтобы следующий алерт пришёл удобнее

Если этот сбой застал врасплох — настройте уведомления так, чтобы в следующий раз они пришли быстрее и нужному человеку:

  • Telegram-уведомления — приходят в карман почти мгновенно, без задержек email на десятки минут в очередях и спам-фильтрах.
  • Проверки из нескольких регионов — половина «падений» оказывается локальной сетевой проблемой одного маршрута. Без мульти-региона это не отличить.
  • Heartbeat для cron-задач — если падает не сам сайт, а фоновая обработка, классический uptime-мониторинг это не поймает.
  • Подписка на status-page вашего хостинга — там раньше появляется информация о массовых сбоях, чем поддержка ответит на тикет.

Часто задаваемые вопросы

Что делать ночью, когда хостинг не отвечает?

На круглосуточных тарифах поддержка обязана отвечать ночью — позвоните по горячему номеру. Если хостинг бюджетный и без ночной поддержки, остаётся: проверить, не подняться ли через панель управления (перезапуск процесса, освобождение диска), и оставить тикет на утро. Параллельно сообщите пользователям, что сайт восстановят утром — это лучше, чем тишина.

Сайт открывается у меня, но мониторинг говорит, что он лежит. Кому верить?

Чаще прав мониторинг — у вас может быть кеш браузера, открытое соединение или CDN-узел в вашем регионе ещё отдаёт старую версию страницы. Откройте сайт в инкогнито с мобильной сети и со стороннего сервиса вроде downforeveryoneorjustme.com. Если хотя бы два внешних источника говорят «лежит» — лежит. Если только один из трёх регионов мониторинга показывает падение, а остальные зелёные — это локальная сетевая проблема одного маршрута, а не падение сайта.

Сколько ждать перед тем, как эскалировать?

Зависит от тарифа и характера сайта. Для интернет-магазина в часы продаж — 5–10 минут до первого звонка хостингу, и сразу баннер пользователям. Для блога или корпоративного сайта в нерабочее время — 30 минут. Если на тарифе хостинга прописан SLA вида «реакция за 15 минут» — это и есть граница, после которой можно требовать соблюдения договора.

Алерт пришёл, потом сайт сам поднялся через минуту. Это ложное срабатывание?

Нет, это короткий инцидент: сайт реально не отвечал минуту. Причины обычно — мгновенная перегрузка, перезапуск процесса, кратковременный сбой сети. Если такие алерты приходят регулярно (по несколько раз в день), стоит разобраться: либо у сайта проблема с производительностью, либо у хостинга нестабильная сеть. Если разово — это нормальный фон, мониторинг честно показывает кратковременную недоступность.

Можно ли настроить, чтобы алерт приходил только при долгих падениях?

Да. В настройках монитора у Tracker.ru есть параметр «алерт после N неудачных проверок подряд». По умолчанию — после 2 проверок: если интервал проверок одна минута, алерт придёт примерно через 2 минуты после реального падения. Если короткие сбои не интересны, увеличьте до 3–5 — узнаете о падении на пару минут позже, но ложных срабатываний станет заметно меньше.

См. также