使用 Python 将扫描的 PDF 转换为可编辑 PDF

本教程描述了如何 将扫描的 PDF 转换为可编辑的 PDF,使用 Python。它提供了设置 IDE 的细节、步骤列表以及一个示例代码,使用 Python 使 PDF 可读。您将学习通过设置 API 暴露的各种参数来自定义识别。

使用 Python 将 PDF 转换为可搜索 PDF 的步骤

  1. 将 IDE 设置为使用 Aspose.OCR for Python via Java 来扫描 PDF
  2. 导入库并初始化许可证
  3. 使用 AsposeOcr 类对象创建识别引擎
  4. 实例化 OcrInput 对象,以使用扫描的 PDF 配置输入
  5. 通过设置参数来定义 RecognitionSettings 对象,以控制扫描过程
  6. 通过传入输入对象和识别设置来调用 engine.recognize() 方法
  7. 将结果保存为最高质量的 PDF

这些步骤描述了如何将 PDF 图像转 PDF 文本(使用 Python)。使用 AsposeOcr 类实例化识别引擎,使用 OcrInput 对象定义输入,并实例化 RecognitionSettings 对象以设置所需参数。最后,调用 recognize() 方法扫描 PDF 文件,并使用 save_pdf() 方法将识别过程的结果保存为 PDF 文件。

使用 Python 将 PDF 图片转换为文本的代码

文档已成功保存。

此示例代码演示了如何 使用 Python 将扫描的 PDF 转换为可搜索的 PDFsave_pdf() 方法按原样渲染 PDF 背景,并在其上放置扫描的文本。 开发者可以设置检测语言、检测区域、准确度水平和性能等参数。

本文教会了我们将扫描的 PDF 转换为可读 PDF 的过程。要从发票中提取数据,请参阅文章 使用 Python 从发票中提取数据.

 简体中文