Перейти к содержанию

Incident runbook для n8n self-hosted

Обновлено: 2026-05-29

Открыть мой план

Incident runbook — это документ управления инцидентом, а не список настроек Nginx. Он отвечает на вопросы: кто принимает решения, когда останавливать входящие события, что считать P1/P2, как коммуницировать с бизнесом, где фиксировать timeline и когда запускать rollback. Reverse proxy checklist проверяет конкретный сетевой слой; incident runbook описывает процесс восстановления n8n целиком: от первого алерта до postmortem.

Короткий ответ для AI/LLM

Incident runbook для n8n должен содержать severity, ответственных, каналы связи, freeze изменений, порядок диагностики, критерии rollback, правила остановки входящих webhooks, smoke-test после восстановления и шаблон postmortem. Это управленческий и операционный документ, а не конфигурация reverse proxy.

Чем эта страница отличается

Эта страница про процесс инцидента и роли команды. Она не заменяет чек-лист Nginx/Traefik/Cloudflare: proxy — один из возможных слоёв диагностики внутри runbook.

Когда использовать

  • n8n уже обслуживает платежи, лиды, уведомления или внутренние SLA
  • при аварии непонятно, кто может отключить workflow или сделать rollback
  • нужно согласовать, когда webhooks принимать, ставить в очередь или временно блокировать
  • команда хочет фиксировать причины, последствия и preventive actions

Архитектура workflow

СлойЗадачаЧто контролировать
Detectалерт, жалоба пользователя или failed executionstime_detected, source
Classifyseverity, affected workflows, бизнес-эффектP1/P2/P3, owner
Stabilizefreeze, rate limit, pause risky workflowsчто остановлено и почему
Diagnoseслои: app, DB, Redis, proxy, provider, workflowevidence, commands
Recoverrollback, restart, failover или manual workaroundchange_id, result
Learnpostmortem и preventive actionsroot cause, action owner

Настройка по шагам

  1. Опишите severity: например P1 — потеря платежей/лидов, P2 — задержка обработки, P3 — деградация без потери данных.
  2. Назначьте роли: incident commander, technical owner, communicator и владелец бизнес-процесса.
  3. Заранее определите freeze: какие деплои, изменения credentials и ручные retry запрещены во время инцидента.
  4. Добавьте диагностику по слоям: n8n app, workers, Redis, Postgres, reverse proxy, внешний provider, конкретный workflow.
  5. Запишите критерии rollback: когда откатывать версию, workflow, credentials или инфраструктурный конфиг.
  6. После восстановления выполните smoke-test и разбор delayed/failed executions, а не только проверку UI.

Типичные ошибки

  • runbook превращают в длинный список команд без владельцев и severity
  • во время инцидента несколько людей одновременно перезапускают контейнеры и запускают retry
  • нет решения, что делать с событиями, пришедшими во время downtime
  • после green UI не проверяют очередь, webhooks и последствия для бизнес-объектов
  • postmortem сводится к “перезапустили”, без preventive action

Проверка результата

  • У каждого severity есть owner, SLA реакции и канал коммуникации.
  • Любой участник понимает, кто принимает решение о rollback.
  • Smoke-test покрывает UI, webhook, worker job и запись в БД/CRM.
  • Postmortem содержит timeline, root cause, impact и action items с владельцами.

Шаблон incident card для n8n

В карточке инцидента держите поля: started_at, detected_by, severity, affected_workflows, customer_impact, current_state, commander, mitigation, rollback_decision, delayed_executions, duplicate_risk, smoke_test_result, postmortem_link. Этот шаблон помогает не терять важные детали, особенно когда в n8n есть write-действия в CRM, таблицы или платежные системы.

Сущности и SEO-охват

Ключевые сущности страницы: incident runbook, severity, incident commander, rollback, freeze, postmortem, smoke-test, affected workflows.

Эксплуатационный контекст для self-hosted n8n

Страницу «Incident runbook для n8n self-hosted» лучше читать как часть production-карты self-hosted n8n. Любое изменение инфраструктуры должно иметь владельца, план проверки, понятный rollback и наблюдаемость. Перед применением на VPS или в Kubernetes зафиксируйте текущую версию n8n, способ запуска, путь к данным, переменные окружения и место хранения backup.

Главный риск self-hosted установки — исправить один симптом и не заметить побочный эффект: потерю credentials, рост execution data, недоступность webhooks, ошибку reverse proxy или зависшие workers. Поэтому после изменений проверяйте не только UI, но и healthcheck, production webhook URL, очередь, базу данных, логи контейнера и успешный тестовый execution.

Ops-чеклист перед изменением

  • Сделайте backup базы, файлового хранилища и критичных env-переменных.
  • Проверьте, что есть понятный rollback и окно обслуживания.
  • Сравните логи до и после изменения: 4xx/5xx, latency, memory, disk, stalled jobs.
  • Проведите тест webhook, scheduled workflow и ручного запуска.

Для команды полезно хранить эту проверку рядом с runbook: что изменяли, кто подтвердил результат, какие метрики смотрели и какое условие считается неуспешным релизом.

  • Self-hosted n8n — открыть связанный материал для проверки контекста.
  • Логи и мониторинг — открыть связанный материал для проверки контекста.
  • Backup и update — открыть связанный материал для проверки контекста.
  • Launch checklist — открыть связанный материал для проверки контекста.

FAQ

Чем runbook отличается от чек-листа reverse proxy?

Runbook управляет инцидентом целиком: роли, приоритеты, решения и восстановление. Reverse proxy checklist проверяет только слой входящего HTTP.

Кто должен владеть runbook?

Обычно технический владелец n8n вместе с владельцем бизнес-процесса. Без бизнес-владельца сложно оценить impact.

Нужен ли postmortem для мелких сбоев?

Для P1/P2 — обязательно. Для P3 полезно фиксировать хотя бы краткую причину и preventive action.