Как выполнить OCR PDF
Оптическое распознавание символов (OCR) позволяет извлекать редактируемый текст из изображений или отсканированных PDF-документов. С помощью Tenorshare PDNob вы можете легко выполнять OCR на PDF-файлах, чтобы сделать их поисковыми и редактируемыми. Это руководство предлагает простой пошаговый урок по установке функции OCR и её использованию с вашими PDF.
Видео руководство по выполнению OCR PDF-документа
1. Что такое OCR
OCR (Оптическое распознавание символов) — это технология, которая преобразует отсканированные изображения или PDF-файлы на основе изображений в редактируемый и поисковый текст. Это особенно полезно при работе с отсканированными документами или печатными материалами в цифровой форме.
2. Загрузка и установка OCR
- Запустите Tenorshare PDNob программное обеспечение на вашем компьютере.
- На главном интерфейсе нажмите кнопку «OCR PDF» .
- Выберите нужные файлы на вашем компьютере, затем нажмите «Открыть» для загрузки их в PDNob.
- Нажмите кнопку «Загрузить» , чтобы загрузить функцию OCR, если появится соответствующий запрос.
3. Как выполнить OCR PDF
- После установки функции OCR нажмите кнопку «OCR» на верхней панели инструментов, чтобы начать процесс распознавания.
- Появится окно настроек. При необходимости проверьте настройки, затем нажмите кнопку «Выполнить OCR» , чтобы начать процесс распознавания.
- После завершения OCR вы сможете копировать и использовать извлечённый текст из PDF-файла.
4. Расширенные настройки OCR (поддерживается в PDNob 2.0)
PDNob 2.0 предлагает расширенные настройки OCR, позволяющие пользователям оптимизировать результаты распознавания. Включение этих параметров может повысить точность распознавания, но при этом замедлить скорость обработки OCR.
Чтобы получить доступ к этим параметрам, откройте панель настроек OCR и нажмите «Расширенные настройки». Здесь вы можете включать или отключать отдельные функции обработки изображений и распознавания текста. Точное расположение этого пункта показано на скриншоте ниже.
Подробнее об этих настройках вы можете узнать в этом разделе.
- Автоматическая обрезка страницы – Автоматически определяет корректную область содержимого изображения и удаляет лишние края, делая страницу более компактной и повышая точность распознавания OCR.
- Автоматическое выравнивание страницы – Автоматически корректирует наклон страниц на основе ориентации текста в изображении, выравнивая текст по горизонтали и повышая точность OCR.
- Улучшение локального контраста – Повышает контраст и резкость в отдельных областях изображения, улучшая читаемость размытых символов и увеличивая вероятность успешного OCR. Может незначительно повлиять на исходные цвета.
- Удаление тёмных пятен – Автоматически обнаруживает и удаляет мелкие тёмные шумовые пятна на изображении, делая страницу чище и улучшая визуальное качество результатов OCR.
- Удаление шума – Фильтрует белые точки и другие шумы на изображении, снижая помехи и улучшая чёткость краёв текста для более качественного распознавания OCR.
- Распознавание текста на изображениях – При включении OCR будет также распознавать и извлекать текст из областей изображений, фиксируя текстовый контент, встроенный в картинки.