Comment extraire du texte d'un PDF numérisé en Java

Ce didacticiel rapide fournit des détails sur la façon d’extraire du texte d’un PDF numérisé en Java. Vous pouvez configurer ce processus d’extraction de texte d’un PDF numérisé en Java en définissant les paramètres de détection. L’option est également disponible pour faire une sélection entre la vitesse ou la précision en fonction de la qualité PDF et d’autres exigences de l’application.

Étapes pour extraire le texte d’un PDF numérisé en Java

  1. Depuis le référentiel Maven, configurez Aspose.OCR dans votre projet pour lire le texte PDF numérisé
  2. Initialiser l’objet AsposeOcrPdf pour lire le texte du PDF
  3. Instanciez l’objet de classe DocumentRecognitionSettings pour définir les paramètres de reconnaissance
  4. Définir la page de démarrage et le nombre de pages dans le PDF pour lire le texte
  5. Pour augmenter la vitesse de détection, définissez le drapeau des zones de détection sur faux
  6. Appelez la fonction RecognizePdf pour lire tout le texte selon la configuration ci-dessus
  7. Parcourez tous les résultats extraits des pages PDF et affichez-les sur la console

Au cours du processus de * numérisation de texte à partir d’un PDF en Java *, un objet de AsposeOCRPdf est lancé et contient en fait des fonctionnalités permettant de reconnaître le texte du PDF. Il prend en charge la configuration du processus de détection, comme le numéro de page de démarrage, le nombre de pages PDF à lire et la possibilité de définir des zones de détection pour contrôler la vitesse et la précision. Enfin, nous analysons la collection de résultats numérisés à partir de chaque page et les affichons sur la console.

Code pour convertir un PDF numérisé en texte en Java

Ce code utilise AsposeOCRPdf pour obtenir le texte d’un PDF scanné en Java. L’objet de classe DocumentRecognitionSettings contient des options pour définir la configuration des pages soit à l’aide du constructeur comme illustré dans cet exemple de code, soit en définissant StartPage et PagesNumber séparément. Vous pouvez également définir la langue, les corrections d’inclinaison d’image et le nombre de fils pour la détection parallèle de texte à partir du PDF numérisé.

Dans cet article, nous avons appris comment extraire du texte d’un PDF scanné en Java ainsi que la configuration du processus de détection. Cependant, si vous souhaitez extraire du texte d’une image, reportez-vous à l’article sur comment extraire le texte d’une image en utilisant Java.

 Français