Ten przewodnik zawiera informacje o tym, jak wyodrębnić tekst z PDF za pomocą Pythona. Zawiera wszystkie szczegóły dotyczące ustawiania środowiska, listę kroków i przykładowy kod do wyrywania tekstu z pliku PDF za pomocą kilku wywołań API za pomocą Pythona. Nauczysz się odczytywać dane z pojedynczych lub wielu plików PDF i wyświetlać tekst zwrócony z tego procesu.
Kroki pobierania tekstu z pliku PDF za pomocą Pythona
- Ustaw środowisko tak, aby używało Aspose.OCR for Python via .NET do odczytu pliku PDF
- Utwórz obiekt AsposeOcr, aby wyrwać tekst z pliku PDF
- Utwórz obiekt klasy OcrInput i ustaw typ wejściowy na PDF
- Dodaj pliki PDF do kolekcji wejściowej
- Wywołanie metody recognize() w celu odczytania danych z kolekcji PDF
- Wyświetl tekst rozpoznawczy ze zwróconej kolekcji
Te kroki podsumowują proces wyodrębniania tekstu z dokumentu PDF za pomocą Pythona. Utwórz obiekt klasy AsposeOcr, który zawiera metody rozpoznawania tekstu z PDF i wielu innych formatów. Użyj obiektu klasy OcrInput, aby ustawić typ wejściowy na PDF i dodać kolekcję wejściową plików PDF. Na koniec wywołaj metodę recognize() i wyświetl zwrócony tekst.
Kod do wyodrębniania tekstu z pliku PDF za pomocą Pythona
Ten kod demonstruje rozwój czytnika PDF OCR przy użyciu Pythona. Klasa AsposeOcr zawiera szereg właściwości i metod do dostosowywania procesu rozpoznawania, takich jak obliczanie przekoszenia, korygowanie pisowni w wykrytym tekście i wykrywanie prostokąta. Jeśli dodasz wiele plików PDF, cały tekst z plików PDF zostanie zwrócony jako kolekcja ciągów, które można wyświetlić, iterując zwróconą kolekcję.
Ten artykuł nauczył nas procesu wyodrębniania tekstu z pliku PDF. Aby wyodrębnić tekst z obrazów, zapoznaj się z artykułem na temat Wyodrębnij tekst z obrazu za pomocą Pythona.