Denna handledning beskriver hur man konverterar skannad PDF till redigerbar PDF med Python. Den innehåller detaljer för att konfigurera IDE:n, en lista med steg och ett exempel på kod för att göra PDF läsbar med Python. Du kommer att lära dig anpassa igenkänningen genom att ställa in olika parametrar som exponeras av API:et.
Steg för att konvertera PDF till sökbar PDF med Python
- Ställ in IDE:n att använda Aspose.OCR for Python via Java för att skanna en PDF
- Importera biblioteket och initiera en licens
- Skapa en igenkänningsmotor med AsposeOcr klassobjekt
- Instansiera OcrInput‑objektet för att konfigurera inmatningen med den skannade PDF‑filen.
- Definiera RecognitionSettings-objektet genom att ange parametrarna för att styra skanningsprocessen
- Anropa motor.recognize()-metoden genom att skicka in inmatningsobjektet och igenkänningsinställningarna.
- Spara resultaten som en PDF med maximal kvalitet
Dessa steg beskriver hur man omvandlar en PDF-bild till PDF-text med Python. Instansiera igenkänningsmotorn med klassen AsposeOcr, definiera indata med OcrInput-objektet och skapa ett RecognitionSettings-objekt för att ange önskade parametrar. Slutligen, anropa metoden recognize() för att skanna PDF-filen och spara resultatet av igenkänningsprocessen som en PDF-fil med metoden save_pdf().
Kod för att konvertera en PDF‑bild till text med Python.
Kan du vänligen ange den mening som ska översättas?
Det här exempelprogrammet visar hur man konverterar skannad PDF till sökbar PDF med Python. Metoden save_pdf() renderar PDF‑bakgrunden som den är och placerar den skannade texten ovanpå den. Utvecklarna kan ställa in parametrar såsom detekteringsspråk, detekteringsområden, noggrannhetsnivå och prestanda.
Den här artikeln har lärt oss processen att omvandla en skannad PDF till en läsbar PDF. För att extrahera data från fakturor, se artikeln Dataextraktion från fakturor med Python.