Как подготовить PDF для распознавания
Как подготовить PDF для распознавания - PDF to Google Sheets

Как подготовить PDF для распознавания

Когда приложение PDF to Google Sheets распознаёт таблицу, алгоритм ищет структуру в документе, поэтому качество документа определяет результат. В этом материале мы расскажем о простой подготовке документа, которая существенно улучшает распознавание и занимает буквально пару минут.

Два типа PDF: текстовые и скан. Как понять разницу

Как подготовить PDF для распознавания

PDF бывают двух видов:

  • Текстовые — обычный документ. В таком документе текст выделяется мышкой, можно скопировать строки и работает поиск по документу (Ctrl+F).
  • Скан или фото — PDF собранный из не текстовых файлов. В таком документе выделение не работает, а страницы выглядят как картинка.

Текстовые файлы почти всегда распознаются идеально, а для работы со сканами требуется уделить больше внимания. Хорошая новость — наше приложение поддерживает работу с обоими типами PDF!

Что проверить в текстовом PDF

Как подготовить PDF для распознавания

Проверьте эти аспекты для улучшения результата:

  1. Таблицы не разорваны на несколько страниц посреди строк. Если разорваны — лучше обрабатывать страницы отдельно.
  2. Заголовки колонок видны хотя бы на одной из страниц.
  3. Нет водяных знаков поверх текста.
  4. Страницы с альбомной ориентацией лучше выбирать отдельно от портретной ориентации.

Что проверить в PDF со сканами или фото

Как подготовить PDF для распознавания

Для PDF со сканами наиболее важным аспектом является качество изображений.

  1. Контраст: наилучший результат достигается, если текст темнее фона. Бледные серые сканы сильно ухудшают распознавание (OCR).
  2. Разрешение: чем больше, тем лучше. Если текст плохо читается — лучше переснять при хорошем освещении.
  3. Тени и блики: лучше, чтобы на изображениях не было теней и бликов, так как это ухудшает качество распознавания. Лишние тени могут распознаваться как дополнительные линии в таблице.

Из-за чего чаще всего ухудшается распознавание документов

Для любых PDF документов можно выделить общие рекомендации:

  • Избегайте печатей и подписей поверх таблиц. Если есть выбор, берите страницу, на которой нет перекрытия.
  • Вместо сильно сжатых PDF рекомендуется использовать оригинал без сжатия.
  • Проверяйте корректность структуры для объединенных ячеек. Данные будут извлечены, но структуру иногда проще подправить в Sheets.
  • Нормализуйте данные после извлечения, если разные языки, валюты или единиц измерения смешиваются в одной колонке.
  • Избегайте печатей и подписей поверх таблиц. Если есть выбор, берите страницу, на которой нет перекрытия.
keyboard_arrow_up