Цей посібник описує, як перетворити сканований PDF у редагований PDF за допомогою Python. У ньому є деталі щодо налаштування IDE, список кроків та зразковий код для зробити PDF читабельним за допомогою Python. Ви дізнаєтеся про налаштування розпізнавання, встановлюючи різні параметри, доступні через API.
Кроки для перетворення PDF у пошуковий PDF за допомогою Python
- Встановіть IDE, щоб використовувати Aspose.OCR for Python via Java для сканування PDF
- Імпортуйте бібліотеку та ініціалізуйте ліцензію
- Створіть механізм розпізнавання, використовуючи об’єкт класу AsposeOcr
- Створіть екземпляр об’єкта OcrInput, щоб налаштувати вхід за допомогою сканованого PDF
- Визначте об’єкт RecognitionSettings, встановивши параметри для контролю процесу сканування
- Викличте метод engine.recognize(), передаючи об’єкт вводу та налаштування розпізнавання
- Збережіть результати у форматі PDF з максимальною якістю
Ці кроки описують, як перетворити PDF‑зображення у PDF‑текст за допомогою Python. Створіть інстанцію движка розпізнавання, використовуючи клас AsposeOcr, визначте вхід за допомогою об’єкта OcrInput і створіть об’єкт RecognitionSettings для встановлення потрібних параметрів. Нарешті, викличте метод recognize() для сканування PDF‑файлу та збережіть результат процесу розпізнавання у PDF‑файл за допомогою методу save_pdf().
Код для перетворення PDF‑зображення у текст за допомогою Python
Ви можете використати наступний код для конвертації PDF‑файлу у DOCX.
Цей зразок коду демонструє, як перетворити сканований PDF у пошуковий PDF за допомогою Python. Метод save_pdf() відображає фон PDF у його початковому вигляді та розміщує сканований текст поверх нього. Розробники можуть встановлювати параметри, такі як мова розпізнавання, області розпізнавання, рівень точності та продуктивність.
Ця стаття навчила нас процесу перетворення сканованого PDF у придатний для читання PDF. Щоб отримати дані з рахунків‑фактур, зверніться до статті Data Extraction from Invoices using Python.