这份快速指南解释了如何 使用 Java 从 PDF 提取表格到 Excel。您将获得设置环境的信息、步骤列表以及一个示例代码,使用 Java 将 PDF 中的表格提取到 Excel。所有必要的细节都已演示,涵盖如何访问任意 PDF 页面上的每个表格、获取所有单元格的文本并将内容复制到输出工作簿的相应单元格。
使用 Java 将 PDF 表格提取到 Excel 的步骤
- 设置环境以使用 Aspose.Total for Java 将 PDF 表格提取到 Excel 表格中
- 为 Aspose.PDF 和 Aspose。Cells 产品应用 Aspose.Total 许可证
- 将源 PDF 文件加载到 Document 类对象中
- 使用 Aspose.Cells 中的 Workbook 类创建空的 Excel 文件
- 解析 PDF 中的每一页并访问每页的表格集合
- 遍历所有页面并逐个访问每个单元格
- 从每个单元格获取文本,并将内容保存到目标工作表的相应行和列中
- 自动调整工作表中的列宽并保存输出的 Excel 文件
遵循以下步骤以 使用 Java 将 PDF 中的表格导入 Excel。通过加载源 PDF 文件、访问其中的所有页面、逐页解析、获取每页上的表格集合,并访问所选表格中的每个单元格来开始此过程。将单元格内的文本合并为字符串,并将内容保存到输出 Excel 文件的相应工作表的对应行列中。
使用 Java 从 PDF 中提取 Excel 表格的代码
此代码演示了如何 使用 Java 将 PDF 表格数据提取到 Excel。通过获取 PDF 表格单元格的颜色、粗体/斜体样式、字体名称和大小,并在写入内容时在 Excel 单元格中设置相同的格式,可将源 PDF 文本格式应用于 Excel 工作表表格。处理 PDF 中的合并表格并在 Excel 文件中创建相同的表格时,请注意保持表格内容的组织一致。
本文介绍了将 PDF 表格中的文本复制到 Excel 表格的过程。要将扫描的 PDF 转换为可编辑的 PDF,请参阅文章 使用 Java 将扫描的 PDF 转换为可编辑的 PDF.