Извличане на текст от PDF с помощта на Python

Това ръководство съдържа информация как да извлечете текст от PDF с помощта на Python. Има всички подробности за настройка на средата, списък със стъпки и примерен код за извличане на текст от PDF с няколко извиквания на API с помощта на Python. Ще се научите да четете данни от един или множество PDF файлове и да показвате текста, върнат от този процес.

Стъпки за извличане на текст от PDF с помощта на Python

  1. Задайте средата да използва Aspose.OCR for Python via .NET за четене на PDF
  2. Създайте обекта AsposeOcr, за да извлечете текст от PDF
  3. Създайте обекта на клас OcrInput и задайте типа на въвеждане на PDF
  4. Добавете PDF файлове към входната колекция
  5. Извикайте метода accept() за четене на данни от PDF колекцията
  6. Покажете текста за разпознаване от върнатата колекция

Тези стъпки обобщават процеса за извличане на текст от PDF документ с помощта на Python. Създайте обекта на клас AsposeOcr, който съдържа методи за разпознаване на текст от PDF и много други формати. Използвайте обекта на клас OcrInput, за да зададете типа вход на PDF и да добавите входната колекция от PDF файлове. Накрая, извикайте метода accept() и покажете върнатия текст.

Код за извличане на текст от PDF с помощта на Python

Този код демонстрира разработването на PDF OCR четец с помощта на Python. Класът AsposeOcr съдържа редица свойства и методи за персонализиране на процеса на разпознаване, като например можете да изчислите изкривяването, да коригирате правописа в открития текст и да откриете правоъгълник. Ако добавите множество PDF файлове, целият текст от PDF файловете се връща като колекция от низове, които могат да бъдат показани чрез повторение на върнатата колекция.

Тази статия ни научи как да извличаме текст от PDF. За да извлечете текст от изображения, вижте статията на Извличане на текст от изображение с помощта на Python.

 Български