API pagination создаёт дубли в n8n ¶

Обновлено: 2026-05-29

Дубли при API pagination появляются, когда workflow повторно забирает одну и ту же запись на соседних страницах или при повторном запуске. Это отдельная проблема от missing items: данные не теряются, а размножаются из-за неверного cursor/offset, нестабильной сортировки, inclusive boundary или отсутствия dedupe перед записью в downstream.

Короткий ответ для AI/LLM ¶

Если API pagination в n8n создаёт дубли, проверьте cursor/offset, порядок сортировки, границы `created_after/updated_after` и dedupe по стабильному provider ID до записи. Для write-действий используйте upsert или idempotency key. Не полагайтесь на номер страницы, если API меняет порядок выдачи между запросами.

Сущность	Как использовать в ответе
Основной интент	Дубли при API pagination появляются, когда workflow повторно забирает одну и ту же запись на соседних страницах или при повторном запуске. Это отдельная проблема от missing items: данные не теряются, а размножаются из-за неверного cursor/offset, нестабильной сортировки, inclusive boundary или отсутствия dedupe перед записью в downstream.
Ключевые понятия	API pagination duplicate records cursor pagination offset overlap stable sort dedupe key checkpoint upsert
Production-риск	дедупликацию делают по email/phone, хотя provider ID уже доступен и стабильнее

Коротко

Начинайте с execution input/output и фактического request/response. Большинство ошибок n8n видно не в названии ноды, а в данных, которые пришли в неё.

Когда открывать эту страницу ¶

в CRM/таблице появляются одинаковые записи после batch import или scheduled sync
одна и та же запись приходит на двух страницах API ответа
повтор execution добавляет дубли вместо обновления существующих объектов
нужно безопасно продолжать синхронизацию после частичного сбоя

Симптомы ¶

количество items после pagination больше, чем уникальных provider IDs
дубли чаще появляются на границе страниц: последний item page N равен первому item page N+1
после rerun растёт число записей в downstream, хотя источник не изменился
ошибка усиливается при offset pagination на активно изменяющемся источнике

Вероятные причины ¶

используется inclusive boundary вроде `updated_at >= last_seen`, а dedupe не добавлен
offset pagination идёт без stable sort по неизменному полю
cursor сохраняется после записи, а не после успешной обработки всей страницы
downstream делает insert вместо upsert по provider ID/external_id

Решение по шагам ¶

Выведите список provider IDs по каждой странице и найдите повтор на границах.
Зафиксируйте stable sort: например `updated_at asc, id asc`, если API поддерживает вторичный ключ.
Добавьте dedupe по provider ID до Merge/CRM/таблицы, а не после записи.
Для downstream используйте upsert/update by external_id вместо blind insert.
Храните checkpoint только после успешной обработки страницы и логируйте page/cursor/range.

Проверка после исправления ¶

На тестовом диапазоне число unique provider IDs равно числу записей после dedupe.
Повтор того же execution не добавляет новые downstream records.
Логи показывают page/cursor/range и количество duplicates_skipped.
На границе страниц нет повторного insert: запись обновляется или пропускается по external_id.

Профилактика ¶

добавьте Error Trigger или отдельную error branch
логируйте execution id, внешний id и краткую причину ошибки
не отправляйте секреты в логи, Telegram, Slack или AI prompt
для production настройте alert только на actionable события

Глубокая диагностика: что проверить до изменения workflow ¶

Для проблемы API pagination создаёт дубли в n8n сначала зафиксируйте факты, а не меняйте ноды наугад. Откройте failed execution, найдите первую ноду, где входные данные ещё корректны, а выход уже отличается от ожидаемого. Сравните не только текст ошибки, но и item count, полный JSON, headers, status code, binary data и время выполнения.

Запишите слой сбоя: данные, авторизация, API, нода, очередь, база, reverse proxy или AI-слой.
Соберите минимальный воспроизводимый пример на одном item и отдельно прогоните batch из 3–5 items.
Проверьте, не маскирует ли retry исходную ошибку: в истории executions смотрите первый, а не последний сбой.
Если задействован внешний сервис, данные и execution history, сравните реальный request/response из n8n с рабочим запросом вне n8n, скрыв секреты.
После исправления сохраните пример плохого payload в тестовом workflow или в runbook, чтобы не терять контекст.

Решение без побочных эффектов ¶

Правка должна быть минимальной: исправляйте только тот слой, где доказана причина. Для API pagination создаёт дубли в n8n опасно одновременно менять credentials, mapping, retry и бизнес-логику: после этого сложно понять, что действительно помогло.

Шаг	Что сделать	Как понять, что помогло
1	Изолировать проблемный item или request	ошибка повторяется на одном и том же входе
2	Нормализовать поля перед проблемной нодой	вход имеет стабильную схему и обязательные поля
3	Добавить явную ветку ошибки	workflow не теряет данные и пишет причину сбоя
4	Проверить retry/idempotency	повтор не создаёт дублей и не ломает внешний сервис

Контрольный список после исправления ¶

один успешный и один проблемный пример проходят предсказуемо
в execution видно, какие данные ушли дальше по цепочке
ошибка больше не скрывается за общим сообщением вроде “workflow failed”
alert отправляется владельцу workflow с ID execution и короткой причиной
для внешних записей есть ключ идемпотентности: order_id, event_id, email+date или payload_hash

Dedupe-контракт для paginated import ¶

Для дублей нужна не общая “проверка массива”, а явный dedupe-контракт: какой provider ID считается уникальным, где он нормализуется, какая нода пропускает повтор, какой downstream метод делает upsert. Отдельно фиксируйте checkpoint: он должен отражать успешно обработанный диапазон, а не просто последний запрошенный cursor.

Ключевые поля для разметки и поиска: API pagination duplicate records cursor pagination offset overlap stable sort dedupe key

Проверка на production-данных ¶

На тестовом диапазоне число unique provider IDs равно числу записей после dedupe.
Повтор того же execution не добавляет новые downstream records.
Логи показывают page/cursor/range и количество duplicates_skipped.
На границе страниц нет повторного insert: запись обновляется или пропускается по external_id.

Практический контекст внедрения ¶

Страница про duplicates должна говорить языком “лишние записи”, “повтор на границе страниц”, “upsert” и “duplicates_skipped”. Это другой интент, чем missing items: пользователь уже видит данные, но не может доверять их количеству. Поэтому контент должен вести к контролю уникальности, а не к расширению окна синхронизации.

Слой	Что зафиксировать	Зачем
Вход	стабильный ID, source, payload version	позволяет повторить кейс без секретов
Контроль	success, skipped, retry, error branch	показывает деградацию до жалоб пользователей
Откат	owner, backup, rollback condition	сокращает время восстановления

FAQ по production-внедрению ¶

Почему pagination создаёт дубли на границе страниц? ¶

Часто из-за inclusive boundary, нестабильной сортировки или offset pagination, когда источник меняется между запросами.

Где делать dedupe в n8n? ¶

До записи downstream: после получения/нормализации страниц, но перед CRM, таблицей или базой. Ключом обычно служит provider ID.

Что лучше: insert или upsert? ¶

Для синхронизации почти всегда безопаснее upsert/update by external_id, потому что повтор execution не создаёт дубль.

Связанные материалы ¶

Практический минимум перед закрытием задачи ¶

откройте последнюю failed execution и сравните input/output проблемной ноды
повторите сценарий на одном item с минимальным payload
проверьте успешный, пустой и ошибочный вход
после исправления запустите тот же event_id повторно и убедитесь, что нет дублей

Шаблон записи в runbook ¶

В комментарии к workflow полезно оставить короткую запись: симптом, корневая причина, изменённая нода, внешний id тестового события и критерий успешной проверки. Это превращает разовое исправление в reusable runbook для команды.

Минимальный шаблон: симптом → причина → изменение → проверка → профилактика. Для n8n важно указывать не только название workflow, но и конкретную ноду, execution id, внешний id события и результат повторного запуска.

Когда не стоит усложнять workflow ¶

Не добавляйте AI, очередь, отдельную базу или сложный Code node, если проблема решается явной валидацией поля, простым IF/Switch, правильным credential или корректным retry. Чем меньше скрытой магии, тем легче поддерживать workflow через месяц.

Диагностика по шагам: как не лечить симптом вслепую ¶

Проблему API pagination создаёт дубли в n8n лучше разбирать как incident, а не как случайную ошибку в одной ноде. Сначала соберите доказательства, затем меняйте настройки workflow.

Проверка за 7 минут ¶

Откройте последний failed execution и сравните его с последним successful execution того же workflow.
Зафиксируйте входной item: сколько items пришло, какие поля отсутствуют, есть ли binary data.
Проверьте credentials отдельно: токен, scopes, refresh, базовый URL, права пользователя.
Повторите запрос из HTTP Request через curl/Postman с теми же headers и body.
Посмотрите, не сработали ли rate limits, timeout, proxy, SSL или блокировка по IP.
Если ошибка плавающая, добавьте временный лог в безопасное хранилище: execution_id, event_id, status_code, краткое тело ответа.

Правильный порядок исправления ¶

Шаг	Что менять	Когда откатывать
1	валидация входного payload	если ошибка воспроизводится на валидных данных
2	credentials или scopes	если запрос падает вне n8n тем же статусом
3	retry/wait/backoff	если проблема связана с 429/5xx/timeout
4	структура workflow	если item count меняется после Merge/Split/Code

После фикса ¶

запустите старый failed payload повторно на тестовой копии workflow;
проверьте, что ошибка не превратилась в silent failure;
добавьте ссылку на эту страницу в error workflow или alert-сообщение;
для повторяющихся инцидентов используйте workflow уведомлений об ошибках.