Tato příručka obsahuje informace o tom, jak extrahovat text z PDF pomocí Pythonu. Obsahuje všechny podrobnosti pro nastavení prostředí, seznam kroků a ukázkový kód pro ripování textu z PDF pomocí několika volání API pomocí Pythonu. Naučíte se číst data z jednoho nebo více souborů PDF a zobrazovat text vrácený z tohoto procesu.
Kroky k uchopení textu z PDF pomocí Pythonu
- Nastavte prostředí tak, aby ke čtení PDF používalo Aspose.OCR for Python via .NET
- Vytvořte objekt AsposeOcr pro kopírování textu z PDF
- Vytvořte objekt třídy OcrInput a nastavte typ vstupu na PDF
- Přidejte soubory PDF do vstupní kolekce
- Chcete-li číst data z kolekce PDF, zavolejte metodu rozpoznat().
- Zobrazte rozpoznávaný text z vrácené kolekce
Tyto kroky shrnují proces extrakce textu z dokumentu PDF pomocí Pythonu. Vytvořte objekt třídy AsposeOcr, který obsahuje metody pro rozpoznávání textu z PDF a mnoha dalších formátů. Pomocí objektu třídy OcrInput nastavte typ vstupu na PDF a přidejte vstupní kolekci souborů PDF. Nakonec zavolejte metodu rozpoznat() a zobrazte vrácený text.
Kód pro extrahování textu z PDF pomocí Pythonu
Tento kód demonstruje vývoj PDF OCR čtečky pomocí Pythonu. Třída AsposeOcr obsahuje řadu vlastností a metod pro přizpůsobení procesu rozpoznávání, například můžete vypočítat zkreslení, opravit pravopis v detekovaném textu a detekovat obdélník. Pokud přidáte více souborů PDF, veškerý text z PDF se vrátí jako kolekce řetězců, které lze zobrazit iterací vrácené kolekce.
Tento článek nás naučil proces extrahování textu z PDF. Chcete-li extrahovat text z obrázků, přečtěte si článek na Extrahujte text z obrázku pomocí Pythonu.