Този урок стъпка по стъпка ви показва как да извлечете текст от сканирани PDF в C#. Когато сканирате документи в PDF, тези страници се добавят като сканирани изображения в PDF файла. Така че, за да извлечете текст от сканирания PDF файл, всъщност ще трябва да извлечете текст от изображения в PDF в C#, като приложите оптично разпознаване на знаци (OCR).
Стъпки за извличане на текст от сканиран PDF в C#
- Вземете Aspose.OCR for .NET от мениджъра на пакети NuGet.org
- Добавете препратка към Aspose.OCR namespace
- Приложете лицензния код, като използвате метода SetLicense
- Инициирайте екземпляр на AsposeOcr Class
- Посочете настройките за разпознаване чрез DocumentRecognitionSettings class
- Извлечете всички PDF страници с помощта на метода RecognizePDF
- Вземете текст от всяка PDF страница, като използвате свойството RecognitionText
С помощта на горните стъпки можете да четете текст от сканиран PDF в C# бързо и лесно. По-рано ви показахме как да Извличане на текст от изображение в C#. Този пример обаче ви помага да получите текст от PDF в C#.
Код за извличане на текст от сканиран PDF в C#
Горният C# пример за получаване на текст от PDF е прост и лесен за разбиране. Ние просто четем сканиран PDF файл и след това извличаме текст от всяка страница. Въпреки това, един важен момент, който трябва да разберете тук, е свойството DetectArea. Ако го зададете на true, това ще ви осигури по-голяма точност, но ще намали скоростта на обработка на PDF файла. Въпреки това, като го зададете на false, скоростта ще се подобри и точността може да бъде малко намалена. Така че трябва да изберете между двете опции въз основа на вашата ситуация.