Python kullanarak PDF'den Metin Çıkarma

Bu kılavuz, Python kullanarak PDF‘den metin çıkarma hakkında bilgi içerir. Ortamı ayarlamak için tüm ayrıntılar, bir adım listesi ve Python kullanarak birkaç API çağrısıyla PDF’den metin çıkarma için bir örnek kod içerir. Tek veya birden fazla PDF dosyasından veri okumayı ve bu işlemden döndürülen metni görüntülemeyi öğreneceksiniz.

Python kullanarak PDF’den Metin Alma Adımları

  1. Aspose.OCR for Python via .NET‘i PDF okumak için kullanacak ortamı ayarlayın
  2. PDF’den metin kopyalamak için AsposeOcr nesnesini oluşturun
  3. OcrInput sınıf nesnesini oluşturun ve giriş türünü PDF olarak ayarlayın
  4. Giriş koleksiyonuna PDF dosyaları ekleyin
  5. PDF koleksiyonundan veri okumak için recognize() metodunu çağırın
  6. İade edilen koleksiyondan tanıma metnini görüntüle

Bu adımlar, Python kullanarak PDF belgesinden metin çıkarma sürecini özetler. PDF ve diğer birçok formattan metin tanıma yöntemleri içeren AsposeOcr sınıf nesnesini oluşturun. Giriş türünü PDF olarak ayarlamak ve PDF dosyalarının giriş koleksiyonunu eklemek için OcrInput sınıf nesnesini kullanın. Son olarak, recognize() yöntemini çağırın ve döndürülen metni görüntüleyin.

Python kullanarak PDF’den Metin Çıkarma Kodu

Bu kod, Python* kullanılarak bir *PDF OCR okuyucusunun geliştirilmesini gösterir. AsposeOcr sınıfı, eğriliği hesaplayabilmeniz, algılanan metindeki yazım hatalarını düzeltebilmeniz ve dikdörtgeni algılayabilmeniz gibi tanıma sürecini özelleştirmek için bir dizi özellik ve yöntem içerir. Birden fazla PDF dosyası eklerseniz, PDF’lerdeki tüm metin, döndürülen koleksiyonu yineleyerek görüntülenebilen dizelerin bir koleksiyonu olarak döndürülür.

Bu makale bize PDF’den metin çıkarma sürecini öğretti. Resimlerden metin çıkarmak için Python kullanarak görüntüden metin çıkarın makalesine bakın.

 Türkçe