يوضح لك هذا البرنامج التعليمي خطوة بخطوة كيفية استخراج النص من الممسوح ضوئيًا PDF في C#. عندما تقوم بمسح المستندات ضوئيًا وتحويلها إلى ملف PDF ، تتم إضافة تلك الصفحات كصور ممسوحة ضوئيًا داخل ملف PDF. لذلك من أجل استخراج النص من ملف PDF الممسوح ضوئيًا ، سيتعين عليك في الواقع استخراج النص من الصور في ملف PDF في C# عن طريق تطبيق التعرف الضوئي على الأحرف (OCR).

خطوات استخراج النص من ملف PDF الممسوح ضوئيًا في C#

احصل على Aspose.OCR for .NET من مدير الحزم NuGet.org
أضف مرجعًا إلى Aspose.OCR namespace
تطبيق كود الترخيص باستخدام طريقة SetLicense
بدء مثيل من فئة AsposeOcr
حدد إعدادات التعرف باستخدام DocumentRecognitionSettings class
قم باستخراج جميع صفحات PDF باستخدام طريقة RecognizePDF
احصل على نص من كل صفحة PDF باستخدام خاصية RecognitionText

بمساعدة الخطوات المذكورة أعلاه ، يمكنك قراءة النص من ملف PDF الممسوح ضوئيًا في C# بسرعة وسهولة. في وقت سابق ، أوضحنا لك كيفية استخراج النص من الصورة في C#. ومع ذلك ، يساعدك هذا المثال في الحصول على نص من PDF في C#.

رمز لاستخراج النص من ملف PDF الممسوح ضوئيًا في C#

مثال C# للحصول على نص من ملف PDF بسيط وسهل الفهم. نحن نقرأ ببساطة ملف PDF ممسوحًا ضوئيًا ثم نستخرج النص من كل صفحة. ومع ذلك ، هناك نقطة مهمة يجب فهمها هنا وهي خاصية DetectArea. إذا قمت بضبطه على صحيح ، فسيوفر لك مزيدًا من الدقة ولكنه سيقلل من سرعة معالجة ملف PDF. ومع ذلك ، من خلال تعيينه على “خطأ” ، ستتحسن السرعة وقد تقل الدقة قليلاً. لذلك عليك أن تختار بين الخيارين بناءً على حالتك.

Aspose قاعدة المعرفة

ابحث عن إجابات من API

كيفية استخراج نص من ملف PDF الممسوح ضوئيًا في C#

خطوات استخراج النص من ملف PDF الممسوح ضوئيًا في C#

رمز لاستخراج النص من ملف PDF الممسوح ضوئيًا في C#