บทแนะนำนี้อธิบายวิธี แปลง PDF ที่สแกนเป็น PDF ที่แก้ไขได้โดยใช้ Python. มีรายละเอียดการตั้งค่า IDE, รายการขั้นตอน, และตัวอย่างโค้ดเพื่อ ทำให้ PDF อ่านได้โดยใช้ Python. คุณจะได้เรียนรู้การปรับแต่งการจดจำโดยการตั้งค่าพารามิเตอร์ต่าง ๆ ที่เปิดเผยโดย API.
ขั้นตอนในการแปลง PDF เป็น PDF ที่สามารถค้นหาได้โดยใช้ Python
- ตั้งค่า IDE ให้ใช้ Aspose.OCR for Python via Java เพื่อสแกน PDF
- นำเข้าไลบรารีและเริ่มต้นใบอนุญาต
- สร้างเครื่องมือจดจำโดยใช้วัตถุคลาส AsposeOcr
- สร้างอินสแตนซ์ของอ็อบเจ็กต์ OcrInput เพื่อกำหนดค่าการป้อนข้อมูลโดยใช้ PDF ที่สแกน
- กำหนดอ็อบเจกต์ RecognitionSettings โดยการตั้งค่าพารามิเตอร์เพื่อควบคุมกระบวนการสแกน
- เรียกใช้เมธอด engine.recognize() โดยส่งอ็อบเจ็กต์อินพุตและการตั้งค่าการจดจำ
- บันทึกผลลัพธ์เป็น PDF ด้วยคุณภาพสูงสุด
ขั้นตอนเหล่านี้อธิบายวิธีแปลง PDF image to PDF text using Python ให้เป็นข้อความ PDF โดยใช้ Python. สร้างอินสแตนซ์ของเอนจินการจดจำโดยใช้คลาส AsposeOcr, กำหนดอินพุตโดยใช้วัตถุ OcrInput, และสร้างอินสแตนซ์ของวัตถุ RecognitionSettings เพื่อกำหนดพารามิเตอร์ที่ต้องการ. สุดท้าย, เรียกใช้เมธอด recognize() เพื่อสแกนไฟล์ PDF และบันทึกผลลัพธ์ของกระบวนการจดจำเป็นไฟล์ PDF โดยใช้เมธอด save_pdf().
โค้ดแปลงรูปภาพ PDF เป็นข้อความด้วย Python
ไม่สามารถแปลได้เนื่องจากไม่มีข้อความให้แปล
ตัวอย่างโค้ดนี้แสดงให้เห็นว่า แปลง PDF ที่สแกนเป็น PDF ที่สามารถค้นหาได้โดยใช้ Python อย่างไร. วิธี save_pdf() เรนเดอร์พื้นหลังของ PDF ตามที่เป็นอยู่และวางข้อความที่สแกนไว้เหนือมัน. นักพัฒนาสามารถตั้งค่าพารามิเตอร์ต่าง ๆ เช่น ภาษาการตรวจจับ, พื้นที่การตรวจจับ, ระดับความแม่นยำ, และประสิทธิภาพ.
บทความนี้ได้สอนกระบวนการเปลี่ยน PDF ที่สแกนเป็น PDF ที่อ่านได้ เพื่อดึงข้อมูลจากใบแจ้งหนี้ โปรดดูบทความ Data Extraction from Invoices using Python.