Αυτό το σεμινάριο περιγράφει πώς να μετατρέψετε σαρωμένα PDF σε επεξεργάσιμο PDF χρησιμοποιώντας Python. Περιλαμβάνει λεπτομέρειες για τη ρύθμιση του IDE, μια λίστα βημάτων και ένα δείγμα κώδικα για να κάνετε το PDF αναγνώσιμο χρησιμοποιώντας Python. Θα μάθετε την προσαρμογή της αναγνώρισης ορίζοντας διάφορες παραμέτρους που εκτίθενται από το API.
Βήματα για τη μετατροπή PDF σε PDF με δυνατότητα αναζήτησης χρησιμοποιώντας Python
- Ορίστε το IDE να χρησιμοποιεί Aspose.OCR for Python via Java για σάρωση PDF
- Εισάγετε τη βιβλιοθήκη και αρχικοποιήστε μια άδεια
- Δημιουργήστε μια μηχανή αναγνώρισης χρησιμοποιώντας το αντικείμενο κλάσης AsposeOcr
- Δημιουργήστε το αντικείμενο OcrInput για να διαμορφώσετε την είσοδο χρησιμοποιώντας το σαρωμένο PDF
- Ορίστε το αντικείμενο RecognitionSettings ορίζοντας τις παραμέτρους για τον έλεγχο της διαδικασίας σάρωσης
- Καλέστε τη μέθοδο engine.recognize() περνώντας το αντικείμενο εισόδου και τις ρυθμίσεις αναγνώρισης
- Αποθηκεύστε τα αποτελέσματα ως PDF με μέγιστη ποιότητα
Αυτά τα βήματα περιγράφουν πώς να μετατρέψετε μια PDF εικόνα σε PDF κείμενο χρησιμοποιώντας Python. Δημιουργήστε την μηχανή αναγνώρισης χρησιμοποιώντας την κλάση AsposeOcr, ορίστε την είσοδο χρησιμοποιώντας το αντικείμενο OcrInput και δημιουργήστε το αντικείμενο RecognitionSettings για τον καθορισμό των επιθυμητών παραμέτρων. Τέλος, καλέστε τη μέθοδο recognize() για να σαρώσετε το αρχείο PDF και αποθηκεύστε το αποτέλεσμα της διαδικασίας αναγνώρισης ως αρχείο PDF χρησιμοποιώντας τη μέθοδο save_pdf().
Κώδικας για τη μετατροπή εικόνας PDF σε κείμενο με Python.
Παρακαλώ δώστε την πρόταση που θέλετε να μεταφράσω.
Αυτό το δείγμα κώδικα δείχνει πώς να μετατρέψετε το σαρωμένο PDF σε PDF με δυνατότητα αναζήτησης χρησιμοποιώντας Python. Η μέθοδος save_pdf() αποδίδει το φόντο του PDF όπως είναι και τοποθετεί το σαρωμένο κείμενο πάνω του. Οι προγραμματιστές μπορούν να ορίσουν παραμέτρους όπως η γλώσσα ανίχνευσης, οι περιοχές ανίχνευσης, το επίπεδο ακρίβειας και η απόδοση.
Αυτό το άρθρο μας δίδαξε τη διαδικασία μετατροπής ενός σαρωμένου PDF σε αναγνώσιμο PDF. Για την εξαγωγή δεδομένων από τιμολόγια, ανατρέξτε στο άρθρο Data Extraction from Invoices using Python.