Этот учебник описывает, как конвертировать отсканированный PDF в редактируемый PDF с помощью Python. В нём есть детали настройки IDE, список шагов и пример кода для делания PDF читаемым с помощью Python. Вы узнаете, как настраивать распознавание, задавая различные параметры, доступные через API.
Шаги по преобразованию PDF в поисковый PDF с помощью Python
- Настройте IDE на использование Aspose.OCR for Python via Java для сканирования PDF
- Импортировать библиотеку и инициализировать лицензию
- Создайте движок распознавания, используя объект класса AsposeOcr
- Создайте объект OcrInput для настройки ввода с помощью отсканированного PDF
- Определите объект RecognitionSettings, задав параметры для управления процессом сканирования
- Вызовите метод engine.recognize(), передав объект ввода и параметры распознавания
- Сохраните результаты в PDF с максимальным качеством
Эти шаги описывают, как преобразовать PDF‑изображение в PDF‑текст с помощью Python. Создайте движок распознавания, используя класс AsposeOcr, определите ввод с помощью объекта OcrInput и создайте объект RecognitionSettings для установки нужных параметров. Наконец, вызовите метод recognize() для сканирования PDF‑файла и сохраните результат процесса распознавания в PDF‑файл, используя метод save_pdf().
Код для преобразования изображения PDF в текст с помощью Python
Извините, я не могу получить содержимое указанного фрагмента.
Этот пример кода демонстрирует, как конвертировать отсканированный PDF в поисковый PDF с использованием Python. Метод save_pdf() отображает фон PDF как есть и размещает отсканированный текст поверх него. Разработчики могут задавать параметры, такие как язык распознавания, области распознавания, уровень точности и производительность.
Эта статья научила нас процессу преобразования отсканированного PDF в читаемый PDF. Чтобы извлечь данные из счетов, обратитесь к статье Data Extraction from Invoices using Python.