Extrahujte text z PDF pomocí Pythonu

Tato příručka obsahuje informace o tom, jak extrahovat text z PDF pomocí Pythonu. Obsahuje všechny podrobnosti pro nastavení prostředí, seznam kroků a ukázkový kód pro ripování textu z PDF pomocí několika volání API pomocí Pythonu. Naučíte se číst data z jednoho nebo více souborů PDF a zobrazovat text vrácený z tohoto procesu.

Kroky k uchopení textu z PDF pomocí Pythonu

  1. Nastavte prostředí tak, aby ke čtení PDF používalo Aspose.OCR for Python via .NET
  2. Vytvořte objekt AsposeOcr pro kopírování textu z PDF
  3. Vytvořte objekt třídy OcrInput a nastavte typ vstupu na PDF
  4. Přidejte soubory PDF do vstupní kolekce
  5. Chcete-li číst data z kolekce PDF, zavolejte metodu rozpoznat().
  6. Zobrazte rozpoznávaný text z vrácené kolekce

Tyto kroky shrnují proces extrakce textu z dokumentu PDF pomocí Pythonu. Vytvořte objekt třídy AsposeOcr, který obsahuje metody pro rozpoznávání textu z PDF a mnoha dalších formátů. Pomocí objektu třídy OcrInput nastavte typ vstupu na PDF a přidejte vstupní kolekci souborů PDF. Nakonec zavolejte metodu rozpoznat() a zobrazte vrácený text.

Kód pro extrahování textu z PDF pomocí Pythonu

Tento kód demonstruje vývoj PDF OCR čtečky pomocí Pythonu. Třída AsposeOcr obsahuje řadu vlastností a metod pro přizpůsobení procesu rozpoznávání, například můžete vypočítat zkreslení, opravit pravopis v detekovaném textu a detekovat obdélník. Pokud přidáte více souborů PDF, veškerý text z PDF se vrátí jako kolekce řetězců, které lze zobrazit iterací vrácené kolekce.

Tento článek nás naučil proces extrahování textu z PDF. Chcete-li extrahovat text z obrázků, přečtěte si článek na Extrahujte text z obrázku pomocí Pythonu.

 Čeština