Extraire un tableau d'un PDF vers Excel avec Python

Cet article décrit comment extraire un tableau de PDF à Excel en utilisant Python. Il contient tous les détails pour utiliser les deux produits, à savoir Aspose.PDF et Aspose.Cellules, une liste d’étapes, et un exemple de code pour extraire un tableau Excel d’un PDF en Python. Le code d’exemple démontrera le processus complet en transférant le tableau d’une page PDF vers une feuille Excel.

Étapes pour extraire un tableau d’un PDF vers Excel avec Python

  1. Configurez l’environnement pour installer Aspose.Total For Python via .NET
  2. Appliquer la licence aux bibliothèques importées pertinentes, c.-à-d. Aspose.Cellules et Aspose.PDF
  3. Chargez le fichier PDF source contenant des tableaux en utilisant l’objet de classe Document
  4. Créez un fichier Excel vide en utilisant la classe Workbook et définissez un nom pour la première feuille
  5. Parcourez chaque page de la collection de pages du fichier PDF
  6. Accédez à la collection de tables et parcourez chaque cellule du tableau.
  7. Récupérer le texte de la cellule PDF et le copier dans la cellule correspondante de la feuille Excel
  8. Enregistrez le fichier Excel sur le disque avec les données du tableau provenant du PDF

Ces étapes englobent le processus d’extraction de données d’un tableau PDF vers Excel à l’aide de Python. Importez les bibliothèques nécessaires, chargez le fichier PDF source, accédez à chaque page et à la collection de tableaux qu’elle contient, et parcourez tous les tableaux. Enfin, accédez à chaque cellule d’un tableau PDF et enregistrez son contenu dans la cellule correspondante de la feuille de calcul Excel de sortie.

Code pour extraire un tableau d’un PDF dans Excel avec Python

Ce code montre comment obtenir un tableau d’un PDF vers Excel en utilisant Python. Vous pouvez essayer un moteur de reconnaissance de tableau différent en utilisant l’option use_flow_engine dans la classe TableAbsorber pour détecter les tableaux sans bordure dans le PDF. Utilisez le text_state dans la cellule absorbée pour récupérer le nom de la police, la taille, la couleur d’arrière-plan, la couleur de premier plan, ainsi que le style gras italique afin de personnaliser le format de la cellule Excel de destination et garder le format des tableaux similaire dans les deux fichiers.

Cet article a aidé à comprendre le processus de transfert d’un tableau PDF vers Excel. Pour installer Python afin d’exécuter Aspose.PDF pour Python via.NET, consultez l’article « Comment installer Python pour exécuter Aspose ».PDF pour Python via .NET]( https://kb-qa.aspose.com/ fr/total/python/how-to-install-python-to-run-aspose-pdf-for-python-via-net/).

 Français