Цей посібник містить інформацію про те, як витягнути текст із PDF за допомогою Python. У ньому є всі деталі для налаштування середовища, список кроків і зразок коду для вилучення тексту з PDF за допомогою кількох викликів API за допомогою Python. Ви навчитеся читати дані з одного чи кількох PDF-файлів і відображати текст, отриманий у результаті цього процесу.
Кроки для отримання тексту з PDF за допомогою Python
- Налаштуйте середовище для використання Aspose.OCR for Python via .NET для читання PDF
- Створіть об’єкт AsposeOcr, щоб скопіювати текст із PDF-файлу
- Створіть об’єкт класу OcrInput і встановіть тип введення PDF
- Додайте PDF-файли до вхідної колекції
- Викличте метод розпізнавання(), щоб прочитати дані з колекції PDF
- Відобразити текст розпізнавання з поверненої колекції
Ці кроки підсумовують процес вилучення тексту з документа PDF за допомогою Python. Створіть об’єкт класу AsposeOcr, який містить методи для розпізнавання тексту з PDF та багатьох інших форматів. Використовуйте об’єкт класу OcrInput, щоб встановити тип введення PDF і додати вхідну колекцію файлів PDF. Нарешті, викличте метод розпізнавання() і відобразіть повернутий текст.
Код для вилучення тексту з PDF за допомогою Python
Цей код демонструє розробку зчитувача PDF OCR за допомогою Python. Клас AsposeOcr містить низку властивостей і методів для налаштування процесу розпізнавання, наприклад, ви можете обчислити перекіс, виправити орфографію у виявленому тексті та виявити прямокутник. Якщо ви додаєте кілька PDF-файлів, увесь текст із PDF-файлів повертається як колекція рядків, які можна відобразити шляхом ітерації повернутої колекції.
Ця стаття навчила нас процесу вилучення тексту з PDF. Щоб отримати текст із зображень, зверніться до статті Витягніть текст із зображення за допомогою Python.