ดึงข้อความจาก PDF โดยใช้ Python

คู่มือนี้มีข้อมูลเกี่ยวกับวิธีการแยกข้อความจาก PDF โดยใช้ Python โดยมีรายละเอียดทั้งหมดสำหรับการตั้งค่าสภาพแวดล้อม รายการขั้นตอน และตัวอย่างโค้ดในการแยกข้อความจาก PDF ด้วยการเรียกใช้ API เพียงไม่กี่ครั้งโดยใช้ Python คุณจะได้เรียนรู้การอ่านข้อมูลจากไฟล์ PDF ไฟล์เดียวหรือหลายไฟล์ และแสดงข้อความที่ส่งกลับมาจากกระบวนการนี้

ขั้นตอนในการดึงข้อความจาก PDF โดยใช้ Python

  1. ตั้งค่าสภาพแวดล้อมให้ใช้ Aspose.OCR for Python via .NET เพื่ออ่าน PDF
  2. สร้างอ็อบเจ็กต์ AsposeOcr เพื่อแยกข้อความจาก PDF
  3. สร้างอ็อบเจ็กต์คลาส OcrInput และตั้งค่าประเภทอินพุตเป็น PDF
  4. เพิ่มไฟล์ PDF ลงในคอลเลคชันอินพุต
  5. เรียกใช้เมธอด perceive() เพื่ออ่านข้อมูลจากคอลเลคชัน PDF
  6. แสดงข้อความการจดจำจากคอลเลคชันที่ส่งคืน

ขั้นตอนเหล่านี้สรุปกระบวนการในการ แยกข้อความจากเอกสาร PDF โดยใช้ Python สร้างอ็อบเจ็กต์คลาส AsposeOcr ที่มีวิธีการในการจดจำข้อความจาก PDF และรูปแบบอื่นๆ อีกมากมาย ใช้อ็อบเจ็กต์คลาส OcrInput เพื่อตั้งค่าประเภทอินพุตเป็น PDF และเพิ่มคอลเลกชันอินพุตของไฟล์ PDF สุดท้าย เรียกใช้เมธอด perceive() และแสดงข้อความที่ส่งคืน

โค้ดสำหรับแยกข้อความออกจาก PDF โดยใช้ Python

import aspose.ocr as api
from aspose.ocr import License
# Instantiate a license
license = License()
license.set_license("License.lic")
extractTextFromPDF = api.AsposeOcr()
pdfDatas = api.OcrInput(api.InputType.PDF)
pdfDatas.add("sample.pdf")
textFromPdf = extractTextFromPDF.recognize(pdfDatas)
length = textFromPdf.length
for i in range(length):
print(textFromPdf[i].recognition_text)

โค้ดนี้สาธิตการพัฒนาโปรแกรมอ่าน PDF OCR โดยใช้ Python คลาส AsposeOcr มีคุณสมบัติและวิธีการต่างๆ มากมายเพื่อปรับแต่งกระบวนการจดจำ เช่น คุณสามารถคำนวณค่าเบี่ยงเบน แก้ไขการสะกดคำในข้อความที่ตรวจพบ และตรวจจับรูปสี่เหลี่ยมผืนผ้า หากคุณเพิ่มไฟล์ PDF หลายไฟล์ ข้อความทั้งหมดจาก PDF จะถูกส่งกลับเป็นชุดของสตริงที่สามารถแสดงได้โดยการวนซ้ำคอลเลกชันที่ส่งคืนมา

บทความนี้สอนเราเกี่ยวกับกระบวนการแยกข้อความจาก PDF หากต้องการแยกข้อความจากรูปภาพ โปรดอ่านบทความที่ ดึงข้อความจากภาพโดยใช้ Python

 ไทย