使用 C# 从 PowerPoint 提取文本

本简短指南描述了如何 使用 C# 从 PowerPoint 提取文本。它包含设置 IDE 的细节、步骤列表,以及用于开发 PowerPoint 到文本转换器(使用 C#) 的示例代码。您将学习如何访问演示文稿/幻灯片中的各种内容以获取文本。

使用 C# 将 PowerPoint 转换为文本的步骤

  1. 将环境设置为使用 Aspose.Slides for .NET 将 PPTX 转换为 TXT
  2. 使用 Presentation 类将 PPTX 文件加载到内存中,使用已定义的输入文件路径
  3. 调用 SlideUtil.GetAllTextFrames() 方法以提取每张幻灯片中的所有文本框
  4. 将标志设置为从母版和布局幻灯片中提取文本框,同时
  5. 声明用于保存提取文本内容的 StringBuilder 对象
  6. 解析每个文本框并访问其段落
  7. 遍历每个段落,并将其文本部分以新行追加到 StringBuilder 中
  8. 将最终累计的文本写入磁盘中的 TXT 文件

这些步骤解释了 使用 C# 的 PPTX 转文本转换器 的开发。加载演示文稿,获取所有文本框的集合,创建一个 StringBuilder 对象,并遍历集合中的每个文本框。对于每个文本框,访问段落集合,在每个段落中,获取 portion 的集合,从 portion 中获取文本,并将其追加到 StringBuilder 对象。

使用 C# 将 PPTX 转换为 TXT 的代码

此代码演示了如何 使用 C# 提取 PPTX 文本。还有另一种快速方法可通过 PresentationFactory.实例获取整个演示文稿的文本。GetPresentationText(inputPath, TextExtractionArrangingMode)。Unarranged) 方法将每张幻灯片的内容写入 UTF-8 编码的输出文件。每张幻灯片将写入四个文本组件,包括正文文本、演讲者备注、母版幻灯片文本和布局文本。

本文教会了我们如何从演示文稿中提取所有文本。要将 PowerPoint 转换为 MP4 视频,请参阅文章 使用 C# 将 PowerPoint 转换为视频.