Hogyan lehet szöveget kivonni a beolvasott PDF-ből Java-ban

Ez a gyors oktatóanyag részleteket tartalmaz arról, hogyan lehet szöveget kivonni a beolvasott PDF-ből Java-ban. Az észlelési paraméterek beállításával beállíthatja ezt a szöveg kibontását a Java nyelven beolvasott PDF-ből. A lehetőség a sebesség és a pontosság közötti választásra is elérhető a PDF minőségétől és az alkalmazás egyéb követelményeitől függően.

Szöveg kivonásának lépései a beszkennelt PDF-ből Java nyelven

  1. A Maven adattárból állítsa be a projektben a Aspose.OCR elemet a beolvasott PDF szöveg olvasásához
  2. Inicializálja a AsposeOcrPdf objektumot a PDF szövegének olvasásához
  3. Példányosítsa a DocumentRecognitionSettings osztályobjektumot a felismerési paraméterek beállításához
  4. Állítsa be a kezdőoldalt és az oldalak számát a PDF-ben a szöveg olvasásához
  5. Az észlelési sebesség növeléséhez állítsa az észlelési területek jelzőjét false értékre
  6. Hívja a RecognizePdf funkciót az összes szöveg elolvasásához a fenti konfiguráció szerint
  7. Ismételje meg a PDF-oldalakról kinyert összes eredményt, és jelenítse meg őket a konzolon

A Java nyelvű PDF-ből származó szöveg beolvasása során az AsposeOCRPdf olyan objektuma indul el, amely ténylegesen tartalmaz funkciókat a PDF-ből származó szöveg felismerésére. Támogatja az észlelési folyamat konfigurálását, például a kezdőoldal számát, az olvasandó PDF-oldalak számát, valamint az észlelési területek beállítását a sebesség és a pontosság szabályozásához. Végül elemezzük az egyes oldalakról beolvasott eredménygyűjteményt, és megjelenítjük a konzolon.

Kód a beolvasott PDF szöveggé konvertálásához Java nyelven

Ez a kód az AsposeOCRPdf-et használja a szöveg lekéréséhez a Java nyelven beolvasott PDF-ből. A DocumentRecognitionSettings osztályobjektum opciókat tartalmaz az oldalak konfigurációjának beállítására a jelen példakódban bemutatott konstruktor használatával vagy a StartPage és a PagesNumber külön beállításával. Beállíthatja a nyelvet, a képferdeség-javításokat és a szálak számát is a beolvasott PDF szövegének párhuzamos észleléséhez.

Ebben a cikkben megtanultuk, hogyan lehet szöveget kivonni a beolvasott PDF-ből Java nyelven, valamint az észlelési folyamat konfigurációját. Ha azonban szöveget szeretne kivonni egy képből, olvassa el a hogyan lehet szöveget kivonni a képből Java segítségével című cikket.

 Magyar