このチュートリアルでは、スキャンした PDF を Python を使用して編集可能な PDF に変換する方法を説明します。IDE の設定方法、手順の一覧、そして Python で PDF を読み取り可能にするサンプルコード が含まれています。API が提供するさまざまなパラメータを設定することで、認識のカスタマイズ方法を学べます。
Python を使用して PDF を検索可能な PDF に変換する手順
- IDEを Aspose.OCR for Python via Java を使用して PDF をスキャンするように設定します
- ライブラリをインポートし、ライセンスを初期化する
- AsposeOcr クラスオブジェクトを使用して認識エンジンを作成する
- スキャンしたPDFを使用して入力を構成するために、OcrInput オブジェクトをインスタンス化します。
- スキャンプロセスを制御するパラメータを設定してRecognitionSettingsオブジェクトを定義する
- 入力オブジェクトと認識設定を渡して engine.recognize() メソッドを呼び出す
- 結果を最高品質のPDFとして保存する
これらの手順は、Python を使用した PDF 画像から PDF テキストへの変換 方法を説明します。AsposeOcr クラスを使用して認識エンジンをインスタンス化し、OcrInput オブジェクトで入力を定義し、RecognitionSettings オブジェクトをインスタンス化して目的のパラメータを設定します。最後に、recognize() メソッドを呼び出して PDF ファイルをスキャンし、save_pdf() メソッドで認識結果を PDF ファイルとして保存します。
Python を使用して PDF 画像をテキストに変換するコード
申し訳ありませんが、指定された文章の内容を取得できませんでした。翻訳するテキストをご提供いただけますか?
このサンプルコードは、Python を使用してスキャンした PDF を検索可能な PDF に変換する方法を示しています。save_pdf() メソッドは PDF の背景をそのままレンダリングし、スキャンしたテキストをその上に配置します。開発者は、検出言語、検出領域、精度レベル、パフォーマンスなどのパラメータを設定できます。
この記事では、スキャンした PDF を読み取り可能な PDF に変換する手順を学びました。請求書からデータを抽出するには、記事 Python を使用した請求書からのデータ抽出 を参照してください。