Text aus PowerPoint mit C# extrahieren

Dieser kurze Leitfaden beschreibt, wie man Text aus PowerPoint mit C# extrahiert. Er enthält Details zur Einrichtung der IDE, eine Schritt‑für‑Schritt‑Liste und Beispielcode für die Entwicklung eines PowerPoint zu Text‑Konverter mit C#. Sie lernen, auf verschiedene Inhalte der Präsentation/Folien zuzugreifen, um Text daraus zu extrahieren.

Schritte zum Konvertieren von PowerPoint in Text mit C#

  1. Setzen Sie die Umgebung so, dass Aspose.Slides for .NET für die Konvertierung von PPTX zu TXT verwendet wird.
  2. Öffnen Sie die PPTX-Datei im Speicher mithilfe der Presentation-Klasse, unter Verwendung des definierten Eingabepfads
  3. Rufen Sie die SlideUtil.GetAllTextFrames()-Methode auf, um alle Textrahmen aus jeder Folie zu extrahieren.
  4. Setze das Flag, um Textfelder aus den Master‑ und Layoutfolien ebenfalls zu extrahieren.
  5. Deklariere das StringBuilder‑Objekt zum Halten des extrahierten Textinhalts
  6. Analysiere jeden Textrahmen und greife auf seine Absätze zu
  7. Durchlaufen Sie jeden Absatz und fügen Sie dessen Textabschnitte in neuen Zeilen im StringBuilder hinzu.
  8. Schreibe den finalen gesammelten Text in eine TXT-Datei auf die Festplatte

Diese Schritte erklären die Entwicklung des PPTX-zu-Text-Konverters mit C#. Laden Sie die Präsentation, holen Sie die Sammlung aller Text‑Frames, erstellen Sie ein StringBuilder‑Objekt und iterieren Sie durch jedes Frame in der Sammlung. Für jedes Frame greifen Sie auf die Absatzsammlung zu, holen in jedem Absatz die Sammlung der Portionen, extrahieren den Text aus der Portion und fügen ihn dem StringBuilder‑Objekt hinzu.

Code zum Konvertieren von PPTX in TXT mit C#

Dieser Code demonstriert, wie man Text aus PPTX mit C# extrahiert. Es gibt eine weitere schnelle Methode, um Text aus der gesamten Präsentation zu holen, indem man die PresentationFactory.Instanz verwendet. Die Methode GetPresentationText(inputPath, TextExtractionArrangingMode).Ungeordnet) Methode schreibt den Inhalt jeder Folie in eine UTF‑8‑kodierte Ausgabedatei. Für jede Folie werden vier Textkomponenten geschrieben, einschließlich des Haupttextes, der Sprecher‑Notizen, des Masterfolientextes und des Layout‑Textes.

Dieser Artikel hat uns gezeigt, wie man den gesamten Text aus einer Präsentation extrahiert. Um ein PowerPoint in ein MP4‑Video zu konvertieren, siehe den Artikel PowerPoint mit C# in Video konvertieren.

 Deutsch