Wyodrębnij tekst z pliku PDF za pomocą Pythona

Ten przewodnik zawiera informacje o tym, jak wyodrębnić tekst z PDF za pomocą Pythona. Zawiera wszystkie szczegóły dotyczące ustawiania środowiska, listę kroków i przykładowy kod do wyrywania tekstu z pliku PDF za pomocą kilku wywołań API za pomocą Pythona. Nauczysz się odczytywać dane z pojedynczych lub wielu plików PDF i wyświetlać tekst zwrócony z tego procesu.

Kroki pobierania tekstu z pliku PDF za pomocą Pythona

  1. Ustaw środowisko tak, aby używało Aspose.OCR for Python via .NET do odczytu pliku PDF
  2. Utwórz obiekt AsposeOcr, aby wyrwać tekst z pliku PDF
  3. Utwórz obiekt klasy OcrInput i ustaw typ wejściowy na PDF
  4. Dodaj pliki PDF do kolekcji wejściowej
  5. Wywołanie metody recognize() w celu odczytania danych z kolekcji PDF
  6. Wyświetl tekst rozpoznawczy ze zwróconej kolekcji

Te kroki podsumowują proces wyodrębniania tekstu z dokumentu PDF za pomocą Pythona. Utwórz obiekt klasy AsposeOcr, który zawiera metody rozpoznawania tekstu z PDF i wielu innych formatów. Użyj obiektu klasy OcrInput, aby ustawić typ wejściowy na PDF i dodać kolekcję wejściową plików PDF. Na koniec wywołaj metodę recognize() i wyświetl zwrócony tekst.

Kod do wyodrębniania tekstu z pliku PDF za pomocą Pythona

Ten kod demonstruje rozwój czytnika PDF OCR przy użyciu Pythona. Klasa AsposeOcr zawiera szereg właściwości i metod do dostosowywania procesu rozpoznawania, takich jak obliczanie przekoszenia, korygowanie pisowni w wykrytym tekście i wykrywanie prostokąta. Jeśli dodasz wiele plików PDF, cały tekst z plików PDF zostanie zwrócony jako kolekcja ciągów, które można wyświetlić, iterując zwróconą kolekcję.

Ten artykuł nauczył nas procesu wyodrębniania tekstu z pliku PDF. Aby wyodrębnić tekst z obrazów, zapoznaj się z artykułem na temat Wyodrębnij tekst z obrazu za pomocą Pythona.

 Polski