Ez a gyors oktatóanyag részleteket tartalmaz arról, hogyan lehet szöveget kivonni a beolvasott PDF-ből Java-ban. Az észlelési paraméterek beállításával beállíthatja ezt a szöveg kibontását a Java nyelven beolvasott PDF-ből. A lehetőség a sebesség és a pontosság közötti választásra is elérhető a PDF minőségétől és az alkalmazás egyéb követelményeitől függően.
Szöveg kivonásának lépései a beszkennelt PDF-ből Java nyelven
- A Maven adattárból állítsa be a projektben a Aspose.OCR elemet a beolvasott PDF szöveg olvasásához
- Inicializálja a AsposeOcrPdf objektumot a PDF szövegének olvasásához
- Példányosítsa a DocumentRecognitionSettings osztályobjektumot a felismerési paraméterek beállításához
- Állítsa be a kezdőoldalt és az oldalak számát a PDF-ben a szöveg olvasásához
- Az észlelési sebesség növeléséhez állítsa az észlelési területek jelzőjét false értékre
- Hívja a RecognizePdf funkciót az összes szöveg elolvasásához a fenti konfiguráció szerint
- Ismételje meg a PDF-oldalakról kinyert összes eredményt, és jelenítse meg őket a konzolon
A Java nyelvű PDF-ből származó szöveg beolvasása során az AsposeOCRPdf olyan objektuma indul el, amely ténylegesen tartalmaz funkciókat a PDF-ből származó szöveg felismerésére. Támogatja az észlelési folyamat konfigurálását, például a kezdőoldal számát, az olvasandó PDF-oldalak számát, valamint az észlelési területek beállítását a sebesség és a pontosság szabályozásához. Végül elemezzük az egyes oldalakról beolvasott eredménygyűjteményt, és megjelenítjük a konzolon.
Kód a beolvasott PDF szöveggé konvertálásához Java nyelven
Ez a kód az AsposeOCRPdf-et használja a szöveg lekéréséhez a Java nyelven beolvasott PDF-ből. A DocumentRecognitionSettings osztályobjektum opciókat tartalmaz az oldalak konfigurációjának beállítására a jelen példakódban bemutatott konstruktor használatával vagy a StartPage és a PagesNumber külön beállításával. Beállíthatja a nyelvet, a képferdeség-javításokat és a szálak számát is a beolvasott PDF szövegének párhuzamos észleléséhez.
Ebben a cikkben megtanultuk, hogyan lehet szöveget kivonni a beolvasott PDF-ből Java nyelven, valamint az észlelési folyamat konfigurációját. Ha azonban szöveget szeretne kivonni egy képből, olvassa el a hogyan lehet szöveget kivonni a képből Java segítségével című cikket.