本简短教程解释如何 使用 Java 从 PowerPoint 提取文本。它将分享设置 IDE 的细节、步骤列表以及用于开发 使用 Java 的 PowerPoint 转文本转换器 的示例代码。将讨论从演示文稿中提取文本的各种选项。
使用 Java 从 PowerPoint 提取所有文本的步骤
- 设置环境以使用 Aspose.Slides for Java 将 PPTX 转换为 TXT
- 导入用于幻灯片解析和文件输出的依赖项
- 使用 Presentation 类将源 PPTX 文件加载到内存中。
- 检索所有文本框,以收集所有 slides 中的每个文本容器
- 解析所有帧的段落和部分,并将文本追加到 StringBuilder 对象
- 将输出文件保存为 TXT 文件
上述步骤概括了使用 Java 从 PPTX 提取文本的过程。加载演示文稿,访问所有文本框,创建一个 StringBuilder 对象,并遍历所有框以获取段落。对于每个段落,获取其部分,从每个部分提取文本并追加到 StringBuilder 实例中,最后将累计的文本保存为 TXT 文件。
使用 Java 将 PPTX 转换为 TXT 的代码
此代码演示了如何 使用 Java 将 PowerPoint 转换为文本。您可以使用 SlideUtil.getAllTextBoxes() 方法逐张幻灯片提取文本,该方法以幻灯片为输入;使用 slide.getNotesSlideManager().getNotesSlide() 方法提取演讲者备注;以及使用 slide.getShapes() 方法提取表格中的文本,该方法返回形状集合并筛选出实例为 ITable 的形状。还可以通过填充 JsonObject 并将数据保存到 JSONArray 中生成 JSON 输出。
本文解释了将 PowerPoint 转换为文本的过程。要将演示文稿转换为视频,请参阅文章《使用 Java 将 PowerPoint 转换为视频》。