استخراج متن از PDF با استفاده از پایتون

این راهنما حاوی اطلاعاتی در مورد نحوه استخراج متن از PDF با استفاده از پایتون است. تمام جزئیات برای تنظیم محیط، فهرستی از مراحل، و یک کد نمونه برای ریپ متن از PDF* با چند فراخوانی API با استفاده از پایتون را دارد. شما یاد خواهید گرفت که داده ها را از یک یا چند فایل PDF بخوانید و متن بازگردانده شده از این فرآیند را نمایش دهید.

مراحل گرفتن متن از PDF با استفاده از پایتون

  1. محیط را طوری تنظیم کنید که از Aspose.OCR for Python via .NET برای خواندن PDF استفاده کند
  2. شیء AsposeOcr را برای پاره کردن متن از PDF ایجاد کنید
  3. شی کلاس OcrInput را ایجاد کنید و نوع ورودی را روی PDF تنظیم کنید
  4. فایل های PDF را به مجموعه ورودی اضافه کنید
  5. برای خواندن داده‌ها از مجموعه PDF، متد ()شناسایی را فراخوانی کنید
  6. نمایش متن تشخیص از مجموعه برگشتی

این مراحل فرآیند استخراج متن از سند PDF با استفاده از پایتون را خلاصه می کند. شی کلاس AsposeOcr را ایجاد کنید که حاوی متدهایی برای تشخیص متن از PDF و بسیاری از فرمت های دیگر است. از شی کلاس OcrInput برای تنظیم نوع ورودی به PDF و اضافه کردن مجموعه ورودی فایل های PDF استفاده کنید. در نهایت متد ()شناسایی را فراخوانی کرده و متن برگشتی را نمایش دهید.

کد برای استخراج متن از PDF با استفاده از پایتون

این کد توسعه PDF OCR reader با استفاده از Python را نشان می دهد. کلاس AsposeOcr شامل تعدادی ویژگی و روش برای سفارشی کردن فرآیند تشخیص است، مانند محاسبه انحراف، تصحیح املای متن شناسایی شده و تشخیص مستطیل. اگر چندین فایل پی‌دی‌اف اضافه کنید، تمام متن‌های پی‌دی‌اف‌ها به‌عنوان مجموعه‌ای از رشته‌ها برگردانده می‌شوند که می‌توانند با تکرار مجموعه برگشتی نمایش داده شوند.

این مقاله فرآیند استخراج متن از PDF را به ما آموزش داده است. برای استخراج متن از تصاویر، به مقاله در استخراج متن از تصویر با استفاده از پایتون مراجعه کنید.

 فارسی