Szöveg kibontása PDF-ből Python segítségével

Ez az útmutató információkat tartalmaz arról, hogyan lehet szöveget kivonni a(z) PDF webhelyről Python használatával. Minden részletet tartalmaz a környezet beállításához, a lépések listáját és egy mintakódot a szöveg PDF-ből kimásolásához, néhány API-hívással Python használatával. Megtanul egyetlen vagy több PDF-fájlból olvasni az adatokat, és megjeleníteni a folyamatból visszaküldött szöveget.

Szöveg megragadásának lépései PDF-ből Python használatával

  1. Állítsa be a környezetet a Aspose.OCR for Python via .NET használatára a PDF olvasásához
  2. Hozza létre a AsposeOcr objektumot, hogy szöveget másoljon PDF-ből
  3. Hozza létre a OcrInput osztályobjektumot, és állítsa be a bemeneti típust PDF-re
  4. PDF-fájlok hozzáadása a bemeneti gyűjteményhez
  5. Hívja a felismerés() metódust a PDF-gyűjtemény adatainak olvasásához
  6. Jelenítse meg a visszaküldött gyűjtemény felismerő szövegét

Ezek a lépések összefoglalják a szöveg kinyerésének folyamatát a PDF-dokumentumból Python használatával. Hozzon létre egy AsposeOcr osztályobjektumot, amely módszereket tartalmaz a PDF és sok más formátum szövegének felismerésére. Az OcrInput osztály objektum segítségével állítsa be a bemeneti típust PDF-re, és adja hozzá a PDF-fájlok bemeneti gyűjteményét. Végül hívja meg a felismerés() metódust, és jelenítse meg a visszaadott szöveget.

Kód a szöveg kivonásához a PDF-ből Python használatával

Ez a kód egy PDF OCR olvasó fejlesztését mutatja be Python használatával. Az AsposeOcr osztály számos tulajdonságot és módszert tartalmaz a felismerési folyamat testreszabásához, például kiszámíthatja a ferdeséget, kijavíthatja az észlelt szöveg helyesírását és észlelheti a téglalapot. Ha több PDF-fájlt ad hozzá, a PDF-fájlok összes szövege a visszaadott gyűjtemény iterálásával megjeleníthető karakterláncok gyűjteményeként jelenik meg.

Ez a cikk megtanította nekünk a szöveg PDF-ből történő kinyerésének folyamatát. Ha szöveget szeretne kivonni a képekből, olvassa el a(z) {{HIPERLINK1}} cikket.

 Magyar