Ovaj vodič sadrži informacije o tome kako izdvojiti tekst iz PDF pomoću Pythona. Ima sve pojedinosti za postavljanje okruženja, popis koraka i primjer koda za kopiranje teksta iz PDF-a s nekoliko API poziva pomoću Pythona. Naučit ćete čitati podatke iz jedne ili više PDF datoteka i prikazati tekst vraćen iz ovog procesa.
Koraci za preuzimanje teksta iz PDF-a pomoću Pythona
- Postavite okruženje za korištenje Aspose.OCR for Python via .NET za čitanje PDF-a
- Napravite objekt AsposeOcr za kopiranje teksta iz PDF-a
- Napravite objekt klase OcrInput i postavite vrstu unosa na PDF
- Dodajte PDF datoteke u zbirku unosa
- Pozovite prepoznati() metodu za čitanje podataka iz PDF zbirke
- Prikažite tekst prepoznavanja iz vraćene zbirke
Ovi koraci sažimaju postupak za izdvajanje teksta iz PDF dokumenta pomoću Pythona. Napravite objekt klase AsposeOcr koji sadrži metode za prepoznavanje teksta iz PDF-a i mnogih drugih formata. Koristite objekt klase OcrInput za postavljanje vrste unosa na PDF i dodavanje ulazne zbirke PDF datoteka. Na kraju pozovite metodu prepoznaj() i prikažite vraćeni tekst.
Kod za izdvajanje teksta iz PDF-a pomoću Pythona
Ovaj kod demonstrira razvoj PDF OCR čitača pomoću Pythona. Klasa AsposeOcr sadrži niz svojstava i metoda za prilagodbu procesa prepoznavanja kao što je izračunavanje nagiba, ispravljanje pravopisa u otkrivenom tekstu i otkrivanje pravokutnika. Ako dodate više PDF datoteka, sav tekst iz PDF-ova vraća se kao zbirka nizova koji se mogu prikazati ponavljanjem vraćene zbirke.
Ovaj nas je članak naučio postupku izdvajanja teksta iz PDF-a. Za izdvajanje teksta iz slika, pogledajte članak na Izdvojite tekst sa slike pomoću Pythona.