本教程描述了如何 将扫描的 PDF 转换为可编辑的 PDF,使用 Python。它提供了设置 IDE 的细节、步骤列表以及一个示例代码,使用 Python 使 PDF 可读。您将学习通过设置 API 暴露的各种参数来自定义识别。
使用 Python 将 PDF 转换为可搜索 PDF 的步骤
- 将 IDE 设置为使用 Aspose.OCR for Python via Java 来扫描 PDF
- 导入库并初始化许可证
- 使用 AsposeOcr 类对象创建识别引擎
- 实例化 OcrInput 对象,以使用扫描的 PDF 配置输入
- 通过设置参数来定义 RecognitionSettings 对象,以控制扫描过程
- 通过传入输入对象和识别设置来调用 engine.recognize() 方法
- 将结果保存为最高质量的 PDF
这些步骤描述了如何将 PDF 图像转 PDF 文本(使用 Python)。使用 AsposeOcr 类实例化识别引擎,使用 OcrInput 对象定义输入,并实例化 RecognitionSettings 对象以设置所需参数。最后,调用 recognize() 方法扫描 PDF 文件,并使用 save_pdf() 方法将识别过程的结果保存为 PDF 文件。
使用 Python 将 PDF 图片转换为文本的代码
文档已成功保存。
此示例代码演示了如何 使用 Python 将扫描的 PDF 转换为可搜索的 PDF。 save_pdf() 方法按原样渲染 PDF 背景,并在其上放置扫描的文本。 开发者可以设置检测语言、检测区域、准确度水平和性能等参数。
本文教会了我们将扫描的 PDF 转换为可读 PDF 的过程。要从发票中提取数据,请参阅文章 使用 Python 从发票中提取数据.