Extrahera text från PowerPoint med Python

Denna korta guide beskriver hur man extraherar text från PowerPoint med Python. Den innehåller detaljer för att ställa in IDE:n, en lista med steg och ett exempel på kod för att konvertera PowerPoint till text med Python. Olika tekniker kommer att diskuteras för att hämta text från bilderna.

Steg för att extrahera text från PPTX med Python

  1. Ställ in IDE:n att använda Aspose.Slides for Python via .NET för att extrahera text
  2. Importera de önskade klasserna från biblioteket samt verktygsklassen SlideUtil.
  3. Definiera in- och utdatafilernas sökvägar och ladda licensen
  4. Ladda käll‑PowerPoint‑presentationen i Presentation‑objektet
  5. Använd SlideUtil.get_all_text_frames för att extrahera alla textramar från varje bild
  6. Gå igenom alla textramar och deras stycken för att samla in individuella textdelar
  7. Bearbeta varje ram och lägg till bildinnehåll på en ny rad
  8. Spara alla insamlade textdelar och spara resultatet i en TXT‑fil

De här stegen förklarar processen att utveckla en PPTX till text‑konverterare med Python. Ladda presentationen, hämta alla textramar från den, analysera varje stycke i alla ramar och hämta text från delarna i dem. Spara all insamlad data i en textfil med en radseparator för varje textsegment.

Kod för en PowerPoint‑till‑text‑konverterare med Python.

Den här koden visar hur man konverterar PPTX till TXT med Python. Istället för att skanna hela presentationen på en gång kan du komma åt varje bild separat och bearbeta den för att hämta text endast från de valda bilderna. Ett annat alternativ är att du inte laddar in presentationen i minnet utan bara använder filsökvägen för att extrahera dess text med en flagga för att hämta text i den ordnade ordningen, som original eller i en platt ordning.

Den här korta artikeln guidar om att extrahera text från en PPTX. För att konvertera en presentation till video, se artikeln Konvertera PowerPoint till video med Python.

 Svenska