คู่มือนี้มีข้อมูลเกี่ยวกับวิธีการแยกข้อความจาก PDF โดยใช้ Python โดยมีรายละเอียดทั้งหมดสำหรับการตั้งค่าสภาพแวดล้อม รายการขั้นตอน และตัวอย่างโค้ดในการแยกข้อความจาก PDF ด้วยการเรียกใช้ API เพียงไม่กี่ครั้งโดยใช้ Python คุณจะได้เรียนรู้การอ่านข้อมูลจากไฟล์ PDF ไฟล์เดียวหรือหลายไฟล์ และแสดงข้อความที่ส่งกลับมาจากกระบวนการนี้
ขั้นตอนในการดึงข้อความจาก PDF โดยใช้ Python
- ตั้งค่าสภาพแวดล้อมให้ใช้ Aspose.OCR for Python via .NET เพื่ออ่าน PDF
- สร้างอ็อบเจ็กต์ AsposeOcr เพื่อแยกข้อความจาก PDF
- สร้างอ็อบเจ็กต์คลาส OcrInput และตั้งค่าประเภทอินพุตเป็น PDF
- เพิ่มไฟล์ PDF ลงในคอลเลคชันอินพุต
- เรียกใช้เมธอด perceive() เพื่ออ่านข้อมูลจากคอลเลคชัน PDF
- แสดงข้อความการจดจำจากคอลเลคชันที่ส่งคืน
ขั้นตอนเหล่านี้สรุปกระบวนการในการ แยกข้อความจากเอกสาร PDF โดยใช้ Python สร้างอ็อบเจ็กต์คลาส AsposeOcr ที่มีวิธีการในการจดจำข้อความจาก PDF และรูปแบบอื่นๆ อีกมากมาย ใช้อ็อบเจ็กต์คลาส OcrInput เพื่อตั้งค่าประเภทอินพุตเป็น PDF และเพิ่มคอลเลกชันอินพุตของไฟล์ PDF สุดท้าย เรียกใช้เมธอด perceive() และแสดงข้อความที่ส่งคืน
โค้ดสำหรับแยกข้อความออกจาก PDF โดยใช้ Python
import aspose.ocr as api | |
from aspose.ocr import License | |
# Instantiate a license | |
license = License() | |
license.set_license("License.lic") | |
extractTextFromPDF = api.AsposeOcr() | |
pdfDatas = api.OcrInput(api.InputType.PDF) | |
pdfDatas.add("sample.pdf") | |
textFromPdf = extractTextFromPDF.recognize(pdfDatas) | |
length = textFromPdf.length | |
for i in range(length): | |
print(textFromPdf[i].recognition_text) |
โค้ดนี้สาธิตการพัฒนาโปรแกรมอ่าน PDF OCR โดยใช้ Python คลาส AsposeOcr มีคุณสมบัติและวิธีการต่างๆ มากมายเพื่อปรับแต่งกระบวนการจดจำ เช่น คุณสามารถคำนวณค่าเบี่ยงเบน แก้ไขการสะกดคำในข้อความที่ตรวจพบ และตรวจจับรูปสี่เหลี่ยมผืนผ้า หากคุณเพิ่มไฟล์ PDF หลายไฟล์ ข้อความทั้งหมดจาก PDF จะถูกส่งกลับเป็นชุดของสตริงที่สามารถแสดงได้โดยการวนซ้ำคอลเลกชันที่ส่งคืนมา
บทความนี้สอนเราเกี่ยวกับกระบวนการแยกข้อความจาก PDF หากต้องการแยกข้อความจากรูปภาพ โปรดอ่านบทความที่ ดึงข้อความจากภาพโดยใช้ Python