Hướng dẫn này hướng dẫn cách thực hiện trích xuất dữ liệu từ hóa đơn bằng Python. Hướng dẫn có tất cả các chi tiết để thiết lập IDE cho quá trình phát triển, danh sách các bước xác định luồng chương trình và mã mẫu minh họa phần mềm OCR hóa đơn bằng Python. Bạn sẽ học cách tùy chỉnh quy trình phát hiện từ các hình ảnh như PNG, JPEG, BMP, TIFF và GIF theo yêu cầu của bạn.
Các bước để OCR hóa đơn bằng Python
- Đặt môi trường để sử dụng Aspose.OCR for Python via .NET để trích xuất dữ liệu hóa đơn
- Tạo một phiên bản của Aspose.Ocr để xử lý OCR
- Tạo một phiên bản của lớp OcrInput để lưu trữ biên lai
- Thêm biên lai vào bộ sưu tập OcrInput
- Thiết lập cài đặt nhận dạng biên lai và thiết lập ngôn ngữ nhận dạng
- Thực hiện OCR bằng phương pháp recognize_receipt để nhận dạng văn bản từ biên lai đầu vào
- Hiển thị văn bản được nhận dạng từ biên lai
Các bước này mô tả cách áp dụng OCR cho biên lai bằng Python. Tạo một thể hiện của đối tượng Aspose.Ocr, khởi tạo đối tượng OcrInput để giữ biên lai và tạo đối tượng ReceiptRecognitionSettings để xác định các tham số cho OCR hóa đơn. Cuối cùng, gọi phương thức recognize_receipt() bằng cách cung cấp danh sách biên lai và các thiết lập để trích xuất văn bản.
Mã để trích xuất dữ liệu hóa đơn bằng Python
Mã mẫu này minh họa cách sử dụng API OCR hóa đơn bằng Python. Bạn có thể đặt loại đầu vào thành PDF, TIFF, URL, Directory, Zip, v.v. và đặt ngôn ngữ phát hiện từ danh sách lớn các tên ngôn ngữ trong Language enumerator, Lớp ReceiptRecognitionSettings chứa một số thuộc tính như đặt bộ ký tự được phép, cờ để đặt đảo ngược màu tự động và xác định danh sách đen các ký tự để bỏ qua chúng.
Bài viết này đã hướng dẫn chúng ta quy trình trích xuất văn bản hóa đơn. Để chuyển đổi văn bản viết tay thành văn bản có thể chỉnh sửa và tìm kiếm được, hãy tham khảo bài viết trên Chuyển đổi chữ viết tay thành văn bản bằng Python.