Python을 사용하여 PDF에서 텍스트 추출

이 가이드에는 Python을 사용하여 PDF에서 텍스트를 추출하는 방법에 대한 정보가 들어 있습니다. 환경을 설정하는 모든 세부 정보, 단계 목록, Python을 사용하여 몇 가지 API 호출로 PDF에서 텍스트를 추출하는 샘플 코드가 있습니다. 단일 또는 여러 PDF 파일에서 데이터를 읽고 이 프로세스에서 반환된 텍스트를 표시하는 방법을 배우게 됩니다.

Python을 사용하여 PDF에서 텍스트를 가져오는 단계

  1. Aspose.OCR for Python via .NET를 사용하여 PDF를 읽을 수 있도록 환경을 설정합니다.
  2. PDF에서 텍스트를 추출하려면 AsposeOcr 객체를 만듭니다.
  3. OcrInput 클래스 객체를 생성하고 입력 유형을 PDF로 설정합니다.
  4. 입력 컬렉션에 PDF 파일 추가
  5. PDF 컬렉션에서 데이터를 읽으려면 perceive() 메서드를 호출합니다.
  6. 반환된 컬렉션에서 인식 텍스트를 표시합니다.

이 단계는 Python을 사용하여 PDF 문서에서 텍스트를 추출하는 프로세스를 요약합니다. PDF 및 기타 여러 형식의 텍스트를 인식하는 메서드가 포함된 AsposeOcr 클래스 객체를 만듭니다. OcrInput 클래스 객체를 사용하여 입력 유형을 PDF로 설정하고 PDF 파일의 입력 컬렉션을 추가합니다. 마지막으로, perceive() 메서드를 호출하고 반환된 텍스트를 표시합니다.

Python을 사용하여 PDF에서 텍스트를 추출하는 코드

이 코드는 Python을 사용하여 PDF OCR 리더를 개발하는 방법을 보여줍니다. AsposeOcr 클래스에는 기울기를 계산하고, 감지된 텍스트의 철자를 수정하고, 사각형을 감지하는 등 인식 프로세스를 사용자 정의할 수 있는 여러 속성과 메서드가 포함되어 있습니다. 여러 PDF 파일을 추가하면 PDF의 모든 텍스트가 반환된 컬렉션을 반복하여 표시할 수 있는 문자열 컬렉션으로 반환됩니다.

이 문서에서는 PDF에서 텍스트를 추출하는 프로세스를 알려드렸습니다. 이미지에서 텍스트를 추출하려면 Python을 사용하여 이미지에서 텍스트 추출의 문서를 참조하세요.

 한국인