Как подготовить PDF для распознавания
Когда приложение PDF to Google Sheets распознаёт таблицу, алгоритм ищет структуру в документе, поэтому качество документа определяет результат. В этом материале мы расскажем о простой подготовке документа, которая существенно улучшает распознавание и занимает буквально пару минут.
Два типа PDF: текстовые и скан. Как понять разницу

PDF бывают двух видов:
- Текстовые — обычный документ. В таком документе текст выделяется мышкой, можно скопировать строки и работает поиск по документу (Ctrl+F).
- Скан или фото — PDF собранный из не текстовых файлов. В таком документе выделение не работает, а страницы выглядят как картинка.
Текстовые файлы почти всегда распознаются идеально, а для работы со сканами требуется уделить больше внимания. Хорошая новость — наше приложение поддерживает работу с обоими типами PDF!
Что проверить в текстовом PDF

Проверьте эти аспекты для улучшения результата:
- Таблицы не разорваны на несколько страниц посреди строк. Если разорваны — лучше обрабатывать страницы отдельно.
- Заголовки колонок видны хотя бы на одной из страниц.
- Нет водяных знаков поверх текста.
- Страницы с альбомной ориентацией лучше выбирать отдельно от портретной ориентации.
Что проверить в PDF со сканами или фото

Для PDF со сканами наиболее важным аспектом является качество изображений.
- Контраст: наилучший результат достигается, если текст темнее фона. Бледные серые сканы сильно ухудшают распознавание (OCR).
- Разрешение: чем больше, тем лучше. Если текст плохо читается — лучше переснять при хорошем освещении.
- Тени и блики: лучше, чтобы на изображениях не было теней и бликов, так как это ухудшает качество распознавания. Лишние тени могут распознаваться как дополнительные линии в таблице.
Из-за чего чаще всего ухудшается распознавание документов
Для любых PDF документов можно выделить общие рекомендации:
- Избегайте печатей и подписей поверх таблиц. Если есть выбор, берите страницу, на которой нет перекрытия.
- Вместо сильно сжатых PDF рекомендуется использовать оригинал без сжатия.
- Проверяйте корректность структуры для объединенных ячеек. Данные будут извлечены, но структуру иногда проще подправить в Sheets.
- Нормализуйте данные после извлечения, если разные языки, валюты или единиц измерения смешиваются в одной колонке.
- Избегайте печатей и подписей поверх таблиц. Если есть выбор, берите страницу, на которой нет перекрытия.