Python を使用した PowerPoint からのテキスト抽出

この短いガイドでは、Python を使用して PowerPoint からテキストを抽出する方法を説明します。IDE の設定方法、手順のリスト、そして Python を使用して PowerPoint をテキストに変換するサンプルコード が含まれています。スライドからテキストを取得するさまざまな手法についても解説します。

Python を使って PPTX からテキストを抽出する手順

  1. IDEを Aspose.Slides for Python via .NET を使用してテキストを抽出するように設定します
  2. ライブラリから目的のクラスと SlideUtil ユーティリティクラスをインポートします
  3. 入出力ファイルパスを定義し、ライセンスをロードする
  4. ソースのPowerPointプレゼンテーションを Presentation オブジェクトにロードします
  5. SlideUtil.get_all_text_frames を使用して、各スライドからすべてのテキストフレームを抽出します
  6. すべてのテキストフレームとその段落を解析して、個々のテキスト部分を収集する
  7. 各フレームを処理し、スライドの内容を新しい行に追加する
  8. 収集したすべてのテキスト部分を保存し、出力をTXTファイルに保存する

これらの手順は、Python を使用した PPTX からテキストへのコンバータ を開発するプロセスを説明します。プレゼンテーションを読み込み、そこからすべてのテキストフレームを取得し、すべてのフレーム内の各段落を解析し、そこに含まれるテキスト部分を取得します。各テキストセグメントごとに改行区切りで、収集したすべてのデータをテキストファイルに保存します。

PowerPoint をテキストに変換するコード(Python)

このコードは、Python を使用して PPTX を TXT に変換する 方法を示しています。プレゼンテーション全体を一度にスキャンする代わりに、各スライドに個別にアクセスし、選択したスライドのみからテキストを取得するように処理できます。別のオプションとして、プレゼンテーションをメモリにロードせず、ファイルパスだけを使用してテキストを抽出し、フラグで元の順序またはフラットな順序でテキストを取得することができます。

この短い記事では、PPTX からテキストを抽出する方法を案内します。プレゼンテーションを動画に変換するには、記事 Convert PowerPoint to video using Python を参照してください。

 日本語