Ez az útmutató információkat tartalmaz arról, hogyan lehet szöveget kivonni a(z) PDF webhelyről Python használatával. Minden részletet tartalmaz a környezet beállításához, a lépések listáját és egy mintakódot a szöveg PDF-ből kimásolásához, néhány API-hívással Python használatával. Megtanul egyetlen vagy több PDF-fájlból olvasni az adatokat, és megjeleníteni a folyamatból visszaküldött szöveget.
Szöveg megragadásának lépései PDF-ből Python használatával
- Állítsa be a környezetet a Aspose.OCR for Python via .NET használatára a PDF olvasásához
- Hozza létre a AsposeOcr objektumot, hogy szöveget másoljon PDF-ből
- Hozza létre a OcrInput osztályobjektumot, és állítsa be a bemeneti típust PDF-re
- PDF-fájlok hozzáadása a bemeneti gyűjteményhez
- Hívja a felismerés() metódust a PDF-gyűjtemény adatainak olvasásához
- Jelenítse meg a visszaküldött gyűjtemény felismerő szövegét
Ezek a lépések összefoglalják a szöveg kinyerésének folyamatát a PDF-dokumentumból Python használatával. Hozzon létre egy AsposeOcr osztályobjektumot, amely módszereket tartalmaz a PDF és sok más formátum szövegének felismerésére. Az OcrInput osztály objektum segítségével állítsa be a bemeneti típust PDF-re, és adja hozzá a PDF-fájlok bemeneti gyűjteményét. Végül hívja meg a felismerés() metódust, és jelenítse meg a visszaadott szöveget.
Kód a szöveg kivonásához a PDF-ből Python használatával
Ez a kód egy PDF OCR olvasó fejlesztését mutatja be Python használatával. Az AsposeOcr osztály számos tulajdonságot és módszert tartalmaz a felismerési folyamat testreszabásához, például kiszámíthatja a ferdeséget, kijavíthatja az észlelt szöveg helyesírását és észlelheti a téglalapot. Ha több PDF-fájlt ad hozzá, a PDF-fájlok összes szövege a visszaadott gyűjtemény iterálásával megjeleníthető karakterláncok gyűjteményeként jelenik meg.
Ez a cikk megtanította nekünk a szöveg PDF-ből történő kinyerésének folyamatát. Ha szöveget szeretne kivonni a képekből, olvassa el a(z) {{HIPERLINK1}} cikket.