Převod naskenovaného PDF na editovatelné PDF pomocí Pythonu

Tento tutoriál popisuje, jak převést naskenovaný PDF na editovatelný PDF pomocí Pythonu. Obsahuje podrobnosti o nastavení IDE, seznam kroků a ukázkový kód pro zajištění čitelnosti PDF pomocí Pythonu. Naučíte se přizpůsobení rozpoznávání nastavením různých parametrů, které API poskytuje.

Kroky pro převod PDF na prohledávatelný PDF pomocí Pythonu

  1. Nastavte IDE tak, aby používalo Aspose.OCR for Python via Java k naskenování PDF
  2. Naimportujte knihovnu a inicializujte licenci
  3. Vytvořte rozpoznávací engine pomocí objektu třídy AsposeOcr
  4. Vytvořte instanci objektu OcrInput pro konfiguraci vstupu pomocí naskenovaného PDF
  5. Definujte objekt RecognitionSettings nastavením parametrů pro řízení procesu skenování
  6. Zavolejte metodu engine.rozpoznat() předáním vstupního objektu a nastavením rozpoznávání
  7. Uložte výsledky jako PDF s maximální kvalitou

Tyto kroky popisují, jak převést PDF obrázek na PDF text pomocí Pythonu. Vytvořte instanci rozpoznávacího enginu pomocí třídy AsposeOcr, definujte vstup pomocí objektu OcrInput a vytvořte instanci objektu RecognitionSettings pro nastavení požadovaných parametrů. Nakonec zavolejte metodu recognize() k prohledání PDF souboru a uložte výsledek rozpoznávacího procesu jako PDF soubor pomocí metody save_pdf().

Kód pro převod PDF obrázku na text pomocí Pythonu

Dokument se zpracovává. Počkejte prosím.

Tento ukázkový kód demonstruje, jak převést naskenovaný PDF na prohledávatelný PDF pomocí Pythonu. Metoda save_pdf() vykresluje pozadí PDF tak, jak je, a umisťuje naskenovaný text nad něj. Vývojáři mohou nastavit parametry, jako je jazyk detekce, oblasti detekce, úroveň přesnosti a výkon.

Tento článek nás naučil proces převodu naskenovaného PDF na čitelný PDF. Pro extrakci dat z faktur se odkažte na článek Extrahování dat z faktur pomocí Pythonu.

 Čeština