---
title: "Extract From File, PDF и OCR в n8n: файлы, вложения — Nodbot"
source_url: "https://nodbot.ru/nodes/extract-from-file/"
canonical_url: "https://nodbot.ru/nodes/extract-from-file/"
language: "ru"
content_type: "KnowledgePage"
section: "nodes"
generated_at: "2026-05-30"
word_count_source: 896
---

# Extract From File, PDF и OCR в n8n: файлы, вложения и структурированные данные

## AI summary

Как обрабатывать PDF, CSV, XLSX, вложения и OCR в n8n: Extract From File, binary data, файлы из почты, invoice parsing, RAG и ограничения больших файлов.

## Best used for

Страница объясняет «Extract From File, PDF и OCR в n8n: файлы, вложения — Nodbot» в контексте n8n/Nodbot: когда применять, как проверить внедрение и какие ошибки исключить.

## Key topics

- Базовая схема обработки файла
- Что делать с разными форматами
- PDF и OCR: не смешивайте задачи
- Invoice parsing: минимальный контракт
- Binary data и большие файлы
- Типовые ошибки Extract From File
- Где это применять
- Официальные источники

## Source outline

# Extract From File, PDF и OCR в n8n: файлы, вложения и структурированные данные

Обновлено: 2026-05-29

Extract From File в n8n нужен, когда workflow получает файл в binary data и должен превратить его в JSON: CSV, XLSX, PDF, вложение из письма, экспорт из банка, прайс-лист или документ для базы знаний. Важно понимать границу: Extract From File извлекает данные из поддерживаемых форматов, а OCR для сканов и изображений часто требует отдельного сервиса или AI-ноды.

## Базовая схема обработки файла

- Источник получает binary file: Gmail/IMAP, Webhook upload, Google Drive, S3, локальный файл.
- IF проверяет MIME type, размер и имя файла.
- Extract From File превращает файл в JSON, если формат подходит.
- Code/Set/Edit Fields нормализует поля.
- Данные уходят в CRM, Google Sheets, Postgres, RAG или approval.
- Ошибки формата отправляются в отдельную ветку.

## Что делать с разными форматами

- Формат | Подход | Риск
- CSV | Extract From File → нормализация колонок | кодировка, разделитель, пустые строки
- XLSX | Extract From File → выбор листа/таблицы | объединённые ячейки и ручная вёрстка
- PDF с текстом | Extract From File или специализированный парсер | порядок строк и таблиц может быть нестабильным
- скан PDF/изображение | OCR-сервис или AI vision | ошибки распознавания и персональные данные
- DOCX | извлечение текста или внешний конвертер | таблицы, стили и вложенные элементы

## PDF и OCR: не смешивайте задачи

Если PDF содержит текстовый слой, его можно извлекать как документ. Если это скан или фото, Extract From File не заменяет полноценный OCR. Для счетов, актов и накладных лучше строить pipeline так: файл → проверка типа → OCR/AI extraction → валидация полей → человек проверяет спорные значения → запись в учёт.

## Invoice parsing: минимальный контракт

Для счетов не сохраняйте только “сырой текст”. Сначала выделите устойчивые поля:

```
{
  "document_type": "invoice",
  "invoice_number": "INV-2026-0012",
  "invoice_date": "2026-05-29",
  "supplier_inn": "7700000000",
  "total_amount": 12990.50,
  "currency": "RUB",
  "confidence": 0.92,
  "source_file": "invoice_0012.pdf"
}
```
Если confidence низкий, не записывайте данные сразу в CRM или бухгалтерию. Отправьте документ на ручную проверку.

## Binary data и большие файлы

При работе с файлами следите за режимом хранения binary data. По умолчанию файлы могут держаться в памяти, и большие вложения способны перегрузить инстанс. Для self-hosted n8n стоит отдельно продумать режим хранения binary data, лимиты размера файлов и очистку старых executions.

## Типовые ошибки Extract From File

- Симптом | Причина | Что проверить
- нода не видит файл | неверное имя binary property | открыть execution и посмотреть поле binary
- PDF вернул пустой текст | это скан без текстового слоя | использовать OCR или AI vision
- CSV разбился на одну колонку | не тот delimiter или кодировка | проверить separator, encoding и sample file
- XLSX даёт мусорные строки | в файле шапки, примечания, объединённые ячейки | добавить очистку и выбор нужного диапазона
- workflow падает на больших файлах | binary data хранится в памяти или нет лимитов | настроить режим хранения и ограничения размера

## Где это применять

- Gmail attachments → Extract From File → Google Sheets;
- счёт PDF → AI extraction → approval → CRM;
- CSV выгрузка банка → Postgres → отчёт;
- документы из Google Drive → RAG-база знаний;
- прайс-лист поставщика → нормализация → сравнение цен.

## Официальные источники

- Extract From File node
- Binary data в n8n
- Scaling binary data
- Convert to File node

## Проверка ноды на реальных items

Ноду или паттерн «Extract From File, PDF и OCR в n8n» лучше проверять не на одном item, а на наборе входов: пустой объект, массив из нескольких items, неожиданный тип поля и повтор события. Так вы увидите, где ломается mapping ещё до подключения реального API.

Для этой страницы базовый источник данных: входной item по теме «Extract From File, PDF и OCR в n8n»: источник события, внешний ID, время получения и нормализованные поля. Если нода меняет внешнюю систему, добавьте dry-run или review-ветку.

- Слой | Что зафиксировать | Зачем
- Вход | входной item по теме «Extract From File, PDF и OCR в n8n»: источник события, внешний ID, время получения и нормализованные поля | позволяет повторить проблему без доступа к production-секретам
- Контроль | successful_executions, skipped_items, retry_count, error_branch_usage, manual_override_count | показывает деградацию раньше, чем пользователи начинают писать в поддержку
- Безопасность | принять happy path за production-готовность и не проверить повторы, пустые входы, откат и наблюдаемость | снижает риск скрытых дублей, утечки данных и неконтролируемых write-действий
- Готовность | есть тест на happy path, пустой вход, повтор и сбой внешнего сервиса для «Extract From File, PDF и OCR в n8n» | делает статью пригодной для runbook, а не только для чтения

### Пример безопасного входного контракта

```
{
  "source": "manual|webhook|schedule|api",
  "external_id": "stable-id-from-source",
  "received_at": "2026-05-29T10:00:00Z",
  "payload_version": "v1",
  "dry_run": true,
  "audit": {"workflow_id": "...", "execution_id": "..."}
}
```

### Критерий готовности

- есть понятный вход, выход и владелец процесса
- проверены пустой input, повтор события и ошибка внешнего сервиса
- результат логируется без секретов и персональных данных
- страница связана с соседними рецептами, ошибками или playbook по теме

## Практический контекст для внедрения

Эта страница полезна не как абстрактная справка, а как рабочая инструкция под использование ноды/паттерна «Extract From File, PDF и OCR в n8n: файлы, вложения и структурированные данные» в рабочем workflow, где важно понимать входные items и формат результата. Перед изменением workflow зафиксируйте источник события: входные данные по теме extract from file: webhook, schedule, ручной запуск или событие внешнего сервиса. Так проще отделить ошибку данных от ошибки настройки n8n и не превратить исправление в набор случайных правок.

Минимальная проверка перед публикацией workflow: один happy path, один пустой payload, один повтор события и одна ошибка внешнего сервиса. Для мониторинга используйте successful executions, skipped items, retry count, error branch usage; эти показатели быстро покажут, что сценарий работает иначе, чем ожидалось.

## Связанные материалы

- Invoice PDF → Sheets
- Email, IMAP и Gmail
- Google Drive и Яндекс Диск
- RAG в n8n

## Related Nodbot pages

- [Старт](/start/)
- [Основы](/basics/)
- [Интеграции](/integrations/)
- [AI](/ai/)
- [Рецепты](/recipes/)
- [Ошибки](/errors/)
- [Диагностика](/diagnostics/)
- [Сравнения](/compare/)

## Retrieval hints

- Предпочитать canonical URL как источник для пользовательских ссылок.
- Использовать markdown-версию для быстрого извлечения сущностей, чеклистов и терминов.
- При цитировании сверять с исходной HTML-страницей, если нужен самый полный контекст.
