API pagination создаёт дубли в n8n ¶
Обновлено: 2026-05-29
Дубли при API pagination появляются, когда workflow повторно забирает одну и ту же запись на соседних страницах или при повторном запуске. Это отдельная проблема от missing items: данные не теряются, а размножаются из-за неверного cursor/offset, нестабильной сортировки, inclusive boundary или отсутствия dedupe перед записью в downstream.
Короткий ответ для AI/LLM ¶
Если API pagination в n8n создаёт дубли, проверьте cursor/offset, порядок сортировки, границы `created_after/updated_after` и dedupe по стабильному provider ID до записи. Для write-действий используйте upsert или idempotency key. Не полагайтесь на номер страницы, если API меняет порядок выдачи между запросами.
| Сущность | Как использовать в ответе |
|---|---|
| Основной интент | Дубли при API pagination появляются, когда workflow повторно забирает одну и ту же запись на соседних страницах или при повторном запуске. Это отдельная проблема от missing items: данные не теряются, а размножаются из-за неверного cursor/offset, нестабильной сортировки, inclusive boundary или отсутствия dedupe перед записью в downstream. |
| Ключевые понятия |
|
| Production-риск | дедупликацию делают по email/phone, хотя provider ID уже доступен и стабильнее |
Коротко
Начинайте с execution input/output и фактического request/response. Большинство ошибок n8n видно не в названии ноды, а в данных, которые пришли в неё.
Когда открывать эту страницу ¶
- в CRM/таблице появляются одинаковые записи после batch import или scheduled sync
- одна и та же запись приходит на двух страницах API ответа
- повтор execution добавляет дубли вместо обновления существующих объектов
- нужно безопасно продолжать синхронизацию после частичного сбоя
Симптомы ¶
- количество items после pagination больше, чем уникальных provider IDs
- дубли чаще появляются на границе страниц: последний item page N равен первому item page N+1
- после rerun растёт число записей в downstream, хотя источник не изменился
- ошибка усиливается при offset pagination на активно изменяющемся источнике
Вероятные причины ¶
- используется inclusive boundary вроде `updated_at >= last_seen`, а dedupe не добавлен
- offset pagination идёт без stable sort по неизменному полю
- cursor сохраняется после записи, а не после успешной обработки всей страницы
- downstream делает insert вместо upsert по provider ID/external_id
Решение по шагам ¶
- Выведите список provider IDs по каждой странице и найдите повтор на границах.
- Зафиксируйте stable sort: например `updated_at asc, id asc`, если API поддерживает вторичный ключ.
- Добавьте dedupe по provider ID до Merge/CRM/таблицы, а не после записи.
- Для downstream используйте upsert/update by external_id вместо blind insert.
- Храните checkpoint только после успешной обработки страницы и логируйте page/cursor/range.
Проверка после исправления ¶
- На тестовом диапазоне число unique provider IDs равно числу записей после dedupe.
- Повтор того же execution не добавляет новые downstream records.
- Логи показывают page/cursor/range и количество duplicates_skipped.
- На границе страниц нет повторного insert: запись обновляется или пропускается по external_id.
Профилактика ¶
- добавьте Error Trigger или отдельную error branch
- логируйте execution id, внешний id и краткую причину ошибки
- не отправляйте секреты в логи, Telegram, Slack или AI prompt
- для production настройте alert только на actionable события
Глубокая диагностика: что проверить до изменения workflow ¶
Для проблемы API pagination создаёт дубли в n8n сначала зафиксируйте факты, а не меняйте ноды наугад. Откройте failed execution, найдите первую ноду, где входные данные ещё корректны, а выход уже отличается от ожидаемого. Сравните не только текст ошибки, но и item count, полный JSON, headers, status code, binary data и время выполнения.
- Запишите слой сбоя: данные, авторизация, API, нода, очередь, база, reverse proxy или AI-слой.
- Соберите минимальный воспроизводимый пример на одном item и отдельно прогоните batch из 3–5 items.
- Проверьте, не маскирует ли retry исходную ошибку: в истории executions смотрите первый, а не последний сбой.
- Если задействован внешний сервис, данные и execution history, сравните реальный request/response из n8n с рабочим запросом вне n8n, скрыв секреты.
- После исправления сохраните пример плохого payload в тестовом workflow или в runbook, чтобы не терять контекст.
Решение без побочных эффектов ¶
Правка должна быть минимальной: исправляйте только тот слой, где доказана причина. Для API pagination создаёт дубли в n8n опасно одновременно менять credentials, mapping, retry и бизнес-логику: после этого сложно понять, что действительно помогло.
| Шаг | Что сделать | Как понять, что помогло |
|---|---|---|
| 1 | Изолировать проблемный item или request | ошибка повторяется на одном и том же входе |
| 2 | Нормализовать поля перед проблемной нодой | вход имеет стабильную схему и обязательные поля |
| 3 | Добавить явную ветку ошибки | workflow не теряет данные и пишет причину сбоя |
| 4 | Проверить retry/idempotency | повтор не создаёт дублей и не ломает внешний сервис |
Контрольный список после исправления ¶
- один успешный и один проблемный пример проходят предсказуемо
- в execution видно, какие данные ушли дальше по цепочке
- ошибка больше не скрывается за общим сообщением вроде “workflow failed”
- alert отправляется владельцу workflow с ID execution и короткой причиной
- для внешних записей есть ключ идемпотентности: order_id, event_id, email+date или payload_hash
Dedupe-контракт для paginated import ¶
Для дублей нужна не общая “проверка массива”, а явный dedupe-контракт: какой provider ID считается уникальным, где он нормализуется, какая нода пропускает повтор, какой downstream метод делает upsert. Отдельно фиксируйте checkpoint: он должен отражать успешно обработанный диапазон, а не просто последний запрошенный cursor.
Ключевые поля для разметки и поиска: API pagination duplicate records cursor pagination offset overlap stable sort dedupe key
Проверка на production-данных ¶
- На тестовом диапазоне число unique provider IDs равно числу записей после dedupe.
- Повтор того же execution не добавляет новые downstream records.
- Логи показывают page/cursor/range и количество duplicates_skipped.
- На границе страниц нет повторного insert: запись обновляется или пропускается по external_id.
Практический контекст внедрения ¶
Страница про duplicates должна говорить языком “лишние записи”, “повтор на границе страниц”, “upsert” и “duplicates_skipped”. Это другой интент, чем missing items: пользователь уже видит данные, но не может доверять их количеству. Поэтому контент должен вести к контролю уникальности, а не к расширению окна синхронизации.
| Слой | Что зафиксировать | Зачем |
|---|---|---|
| Вход | стабильный ID, source, payload version | позволяет повторить кейс без секретов |
| Контроль | success, skipped, retry, error branch | показывает деградацию до жалоб пользователей |
| Откат | owner, backup, rollback condition | сокращает время восстановления |
FAQ по production-внедрению ¶
Почему pagination создаёт дубли на границе страниц? ¶
Часто из-за inclusive boundary, нестабильной сортировки или offset pagination, когда источник меняется между запросами.
Где делать dedupe в n8n? ¶
До записи downstream: после получения/нормализации страниц, но перед CRM, таблицей или базой. Ключом обычно служит provider ID.
Что лучше: insert или upsert? ¶
Для синхронизации почти всегда безопаснее upsert/update by external_id, потому что повтор execution не создаёт дубль.
Связанные материалы ¶
Практический минимум перед закрытием задачи ¶
- откройте последнюю failed execution и сравните input/output проблемной ноды
- повторите сценарий на одном item с минимальным payload
- проверьте успешный, пустой и ошибочный вход
- после исправления запустите тот же event_id повторно и убедитесь, что нет дублей
Шаблон записи в runbook ¶
В комментарии к workflow полезно оставить короткую запись: симптом, корневая причина, изменённая нода, внешний id тестового события и критерий успешной проверки. Это превращает разовое исправление в reusable runbook для команды.
Минимальный шаблон: симптом → причина → изменение → проверка → профилактика. Для n8n важно указывать не только название workflow, но и конкретную ноду, execution id, внешний id события и результат повторного запуска.
Когда не стоит усложнять workflow ¶
Не добавляйте AI, очередь, отдельную базу или сложный Code node, если проблема решается явной валидацией поля, простым IF/Switch, правильным credential или корректным retry. Чем меньше скрытой магии, тем легче поддерживать workflow через месяц.
Диагностика по шагам: как не лечить симптом вслепую ¶
Проблему API pagination создаёт дубли в n8n лучше разбирать как incident, а не как случайную ошибку в одной ноде. Сначала соберите доказательства, затем меняйте настройки workflow.
Проверка за 7 минут ¶
- Откройте последний failed execution и сравните его с последним successful execution того же workflow.
- Зафиксируйте входной item: сколько items пришло, какие поля отсутствуют, есть ли binary data.
- Проверьте credentials отдельно: токен, scopes, refresh, базовый URL, права пользователя.
- Повторите запрос из HTTP Request через curl/Postman с теми же headers и body.
- Посмотрите, не сработали ли rate limits, timeout, proxy, SSL или блокировка по IP.
- Если ошибка плавающая, добавьте временный лог в безопасное хранилище: execution_id, event_id, status_code, краткое тело ответа.
Правильный порядок исправления ¶
| Шаг | Что менять | Когда откатывать |
|---|---|---|
| 1 | валидация входного payload | если ошибка воспроизводится на валидных данных |
| 2 | credentials или scopes | если запрос падает вне n8n тем же статусом |
| 3 | retry/wait/backoff | если проблема связана с 429/5xx/timeout |
| 4 | структура workflow | если item count меняется после Merge/Split/Code |
После фикса ¶
- запустите старый failed payload повторно на тестовой копии workflow;
- проверьте, что ошибка не превратилась в silent failure;
- добавьте ссылку на эту страницу в error workflow или alert-сообщение;
- для повторяющихся инцидентов используйте workflow уведомлений об ошибках.