本教程指导如何使用 Python 从发票中提取数据。它包含设置开发 IDE 的所有详细信息、定义程序流程的步骤列表以及演示使用 Python 的发票 OCR 软件的示例代码。您将学习如何根据您的要求从 PNG、JPEG、BMP、TIFF 和 GIF 等图像中自定义检测过程。
使用 Python 进行发票 OCR 的步骤
- 设置环境以使用 Aspose.OCR for Python via .NET 提取发票数据
- 创建 Aspose.Ocr 实例以进行 OCR 处理
- 创建 OcrInput 类的实例,用于保存收据
- 将收据添加到 OcrInput 集合
- 设置收据识别设置并设置识别语言
- 使用 recognize_receipt 方法执行 OCR,识别输入收据中的文本
- 显示收据中识别的文本
这些步骤描述了如何使用 Python 应用 OCR 来处理收据。创建 Aspose.Ocr 对象的实例,初始化用于保存收据的 OcrInput 对象,并创建 ReceiptRecognitionSettings 对象来定义发票 OCR 的参数。最后,通过提供收据列表和用于提取文本的设置来调用 understand_receipt() 方法。
使用 Python 提取发票数据的代码
此示例代码演示了如何使用 Python 的 发票 OCR API。您可以将输入类型设置为 PDF、TIFF、URL、目录、Zip 等,并从语言枚举器中的大量语言名称列表中设置检测语言,ReceiptRecognitionSettings 类包含许多属性,例如设置允许的字符集、设置自动颜色反转的标志以及定义要忽略的字符黑名单。
本文教我们提取发票文本的过程。要将手写文本转换为可编辑和可搜索的文本,请参阅 使用 Python 将手写内容转换为文本 上的文章。