Hướng dẫn này mô tả cách chuyển đổi scanned PDF sang PDF có thể chỉnh sửa bằng Python. Nó có chi tiết để thiết lập IDE, danh sách các bước, và một đoạn mã mẫu để làm cho PDF có thể đọc được bằng Python. Bạn sẽ học cách tùy chỉnh việc nhận dạng bằng cách thiết lập các tham số khác nhau được API cung cấp.
Các bước chuyển PDF sang PDF có thể tìm kiếm bằng Python
- Đặt IDE sử dụng Aspose.OCR for Python via Java để quét một tệp PDF
- Nhập thư viện và khởi tạo giấy phép
- Tạo một công cụ nhận dạng bằng cách sử dụng đối tượng lớp AsposeOcr
- Tạo một thể hiện của đối tượng OcrInput để cấu hình đầu vào bằng PDF đã quét
- Định nghĩa đối tượng RecognitionSettings bằng cách thiết lập các tham số để kiểm soát quá trình quét
- Gọi phương thức engine.recognize() bằng cách truyền đối tượng đầu vào và cài đặt nhận dạng
- Lưu kết quả dưới dạng PDF với chất lượng tối đa
Các bước này mô tả cách chuyển đổi một hình ảnh PDF sang văn bản PDF bằng Python. Khởi tạo động cơ nhận dạng bằng lớp AsposeOcr, xác định đầu vào bằng đối tượng OcrInput, và khởi tạo đối tượng RecognitionSettings để thiết lập các tham số mong muốn. Cuối cùng, gọi phương thức recognize() để quét tệp PDF và lưu kết quả của quá trình nhận dạng dưới dạng tệp PDF bằng phương thức save_pdf().
Mã chuyển đổi hình ảnh PDF sang văn bản bằng Python
Xin lỗi, vui lòng cung cấp câu cần dịch.
Mã mẫu này minh họa cách chuyển đổi PDF đã quét sang PDF có thể tìm kiếm bằng Python. Phương thức save_pdf() hiển thị nền PDF như hiện tại và đặt văn bản đã quét lên trên. Các nhà phát triển có thể đặt các tham số như ngôn ngữ phát hiện, khu vực phát hiện, mức độ chính xác và hiệu năng.
Bài viết này đã hướng dẫn cho chúng ta quy trình chuyển đổi PDF đã quét sang PDF có thể đọc được. Để trích xuất dữ liệu từ hoá đơn, hãy tham khảo bài viết Trích xuất dữ liệu từ hoá đơn bằng Python.