Tento tutoriál popisuje, jak převést naskenovaný PDF na editovatelný PDF pomocí Pythonu. Obsahuje podrobnosti o nastavení IDE, seznam kroků a ukázkový kód pro zajištění čitelnosti PDF pomocí Pythonu. Naučíte se přizpůsobení rozpoznávání nastavením různých parametrů, které API poskytuje.
Kroky pro převod PDF na prohledávatelný PDF pomocí Pythonu
- Nastavte IDE tak, aby používalo Aspose.OCR for Python via Java k naskenování PDF
- Naimportujte knihovnu a inicializujte licenci
- Vytvořte rozpoznávací engine pomocí objektu třídy AsposeOcr
- Vytvořte instanci objektu OcrInput pro konfiguraci vstupu pomocí naskenovaného PDF
- Definujte objekt RecognitionSettings nastavením parametrů pro řízení procesu skenování
- Zavolejte metodu engine.rozpoznat() předáním vstupního objektu a nastavením rozpoznávání
- Uložte výsledky jako PDF s maximální kvalitou
Tyto kroky popisují, jak převést PDF obrázek na PDF text pomocí Pythonu. Vytvořte instanci rozpoznávacího enginu pomocí třídy AsposeOcr, definujte vstup pomocí objektu OcrInput a vytvořte instanci objektu RecognitionSettings pro nastavení požadovaných parametrů. Nakonec zavolejte metodu recognize() k prohledání PDF souboru a uložte výsledek rozpoznávacího procesu jako PDF soubor pomocí metody save_pdf().
Kód pro převod PDF obrázku na text pomocí Pythonu
Dokument se zpracovává. Počkejte prosím.
Tento ukázkový kód demonstruje, jak převést naskenovaný PDF na prohledávatelný PDF pomocí Pythonu. Metoda save_pdf() vykresluje pozadí PDF tak, jak je, a umisťuje naskenovaný text nad něj. Vývojáři mohou nastavit parametry, jako je jazyk detekce, oblasti detekce, úroveň přesnosti a výkon.
Tento článek nás naučil proces převodu naskenovaného PDF na čitelný PDF. Pro extrakci dat z faktur se odkažte na článek Extrahování dat z faktur pomocí Pythonu.