Dieses Handbuch enthält Informationen zum Extrahieren von Text aus PDF mit Python. Es enthält alle Details zum Einrichten der Umgebung, eine Liste der Schritte und einen Beispielcode zum Rippen von Text aus PDF mit einigen API-Aufrufen unter Verwendung von Python. Sie lernen, Daten aus einzelnen oder mehreren PDF-Dateien zu lesen und den von diesem Prozess zurückgegebenen Text anzuzeigen.
Schritte zum Erfassen von Text aus PDF mit Python
- Legen Sie die Umgebung so fest, dass zum Lesen einer PDF-Datei Aspose.OCR for Python via .NET verwendet wird.
- Erstellen Sie das AsposeOcr-Objekt, um Text aus einer PDF-Datei zu rippen
- Erstellen Sie das Klassenobjekt OcrInput und legen Sie den Eingabetyp auf PDF fest
- PDF-Dateien zur Eingabesammlung hinzufügen
- Rufen Sie die Methode recognize() auf, um Daten aus der PDF-Sammlung zu lesen
- Zeigen Sie den Erkennungstext aus der zurückgegebenen Sammlung an
Diese Schritte fassen den Prozess zum Extrahieren von Text aus einem PDF-Dokument mit Python zusammen. Erstellen Sie das Klassenobjekt AsposeOcr, das Methoden zum Erkennen von Text aus PDF und vielen anderen Formaten enthält. Verwenden Sie das Klassenobjekt OcrInput, um den Eingabetyp auf PDF festzulegen und die Eingabesammlung von PDF-Dateien hinzuzufügen. Rufen Sie abschließend die Methode recognize() auf und zeigen Sie den zurückgegebenen Text an.
Code zum Extrahieren von Text aus PDF mit Python
Dieser Code demonstriert die Entwicklung eines PDF-OCR-Readers mit Python. Die Klasse AsposeOcr enthält eine Reihe von Eigenschaften und Methoden zum Anpassen des Erkennungsprozesses. So können Sie beispielsweise die Schiefe berechnen, die Rechtschreibung im erkannten Text korrigieren und Rechtecke erkennen. Wenn Sie mehrere PDF-Dateien hinzufügen, wird der gesamte Text aus den PDFs als Sammlung der Zeichenfolgen zurückgegeben, die durch Iterieren der zurückgegebenen Sammlung angezeigt werden können.
In diesem Artikel haben wir gelernt, wie man Text aus PDF extrahiert. Informationen zum Extrahieren von Text aus Bildern finden Sie im Artikel zu Extrahieren Sie mit Python Text aus einem Bild.