این راهنما حاوی اطلاعاتی در مورد نحوه استخراج متن از PDF با استفاده از پایتون است. تمام جزئیات برای تنظیم محیط، فهرستی از مراحل، و یک کد نمونه برای ریپ متن از PDF* با چند فراخوانی API با استفاده از پایتون را دارد. شما یاد خواهید گرفت که داده ها را از یک یا چند فایل PDF بخوانید و متن بازگردانده شده از این فرآیند را نمایش دهید.

مراحل گرفتن متن از PDF با استفاده از پایتون

محیط را طوری تنظیم کنید که از Aspose.OCR for Python via .NET برای خواندن PDF استفاده کند
شیء AsposeOcr را برای پاره کردن متن از PDF ایجاد کنید
شی کلاس OcrInput را ایجاد کنید و نوع ورودی را روی PDF تنظیم کنید
فایل های PDF را به مجموعه ورودی اضافه کنید
برای خواندن داده‌ها از مجموعه PDF، متد ()شناسایی را فراخوانی کنید
نمایش متن تشخیص از مجموعه برگشتی

این مراحل فرآیند استخراج متن از سند PDF با استفاده از پایتون را خلاصه می کند. شی کلاس AsposeOcr را ایجاد کنید که حاوی متدهایی برای تشخیص متن از PDF و بسیاری از فرمت های دیگر است. از شی کلاس OcrInput برای تنظیم نوع ورودی به PDF و اضافه کردن مجموعه ورودی فایل های PDF استفاده کنید. در نهایت متد ()شناسایی را فراخوانی کرده و متن برگشتی را نمایش دهید.

کد برای استخراج متن از PDF با استفاده از پایتون

این کد توسعه PDF OCR reader با استفاده از Python را نشان می دهد. کلاس AsposeOcr شامل تعدادی ویژگی و روش برای سفارشی کردن فرآیند تشخیص است، مانند محاسبه انحراف، تصحیح املای متن شناسایی شده و تشخیص مستطیل. اگر چندین فایل پی‌دی‌اف اضافه کنید، تمام متن‌های پی‌دی‌اف‌ها به‌عنوان مجموعه‌ای از رشته‌ها برگردانده می‌شوند که می‌توانند با تکرار مجموعه برگشتی نمایش داده شوند.

این مقاله فرآیند استخراج متن از PDF را به ما آموزش داده است. برای استخراج متن از تصاویر، به مقاله در استخراج متن از تصویر با استفاده از پایتون مراجعه کنید.

Aspose دانش محور

پاسخ های API را پیدا کنید

استخراج متن از PDF با استفاده از پایتون

مراحل گرفتن متن از PDF با استفاده از پایتون

کد برای استخراج متن از PDF با استفاده از پایتون