このクイックガイドでは、Java を使用して PDF から Excel へテーブルを抽出する方法を説明します。環境設定の情報、手順のリスト、そして Java を使用して PDF から Excel へテーブルを抽出するサンプルコード が提供されます。任意の PDF ページ上のすべてのテーブルにアクセスし、すべてのセルのテキストを取得し、出力ワークブックの該当セルに内容をコピーするための必要な詳細がすべて示されています。
Java を使って PDF から Excel へテーブルを抽出する手順
- 環境を設定して Aspose.Total for Java を使用し、PDFテーブルをExcelシートに抽出します
- Aspose.PDF と Aspose.Cells 製品に Aspose.Total ライセンスを適用する
- ソースPDFファイルを Document クラスオブジェクトにロードする
- Aspose.Cells の Workbook クラスを使用して空の Excel ファイルを作成する
- PDF の各ページを解析し、各ページのテーブルコレクションにアクセスする
- すべてのページを順に反復し、各セルに1つずつアクセスする
- 各セルからテキストを取得し、内容を宛先シートの該当する行と列に保存する
- シートの列幅を自動調整し、出力Excelファイルを保存する
次の手順に従って、Java を使用して PDF から Excel にテーブルを取得してください。まず、元の PDF ファイルを読み込み、すべてのページにアクセスし、各ページを個別に解析し、各ページのテーブルのコレクションを取得し、選択したテーブルの各セルにアクセスします。セル内のテキストを文字列に結合し、出力 Excel ファイルの該当シートの対応する行と列にその内容を保存します。
JavaでPDFからExcelテーブルを抽出するコード
このコードは、Java を使用して PDF テーブルから Excel へデータを抽出する方法を示しています。PDF のテキスト形式は、PDF テーブルセルの色、太字/斜体スタイル、フォント名とサイズを取得し、コンテンツを書き込む際に同じ設定を Excel のセルに適用することで、Excel シートのテーブルに適用できます。PDF の結合テーブルを処理し、Excel ファイルに同様に作成する際は、テーブル内容の構成が同じになるよう注意してください。
この記事では、PDF の表からテキストをコピーして Excel のシート表に貼り付ける手順を解説します。スキャンした PDF を編集可能な PDF に変換するには、記事 Java を使用してスキャンした PDF を編集可能な PDF に変換 を参照してください。