Extrahera text från PowerPoint med Java

Denna korta handledning förklarar hur man extraherar text från PowerPoint med Java. Den kommer att dela detaljer om hur man ställer in IDE:n, en lista med steg och ett exempel på kod för att utveckla en PowerPoint‑till‑text‑konverterare med Java. Olika alternativ för att extrahera text från presentationen kommer att diskuteras.

Steg för att extrahera all text från PowerPoint med Java

  1. Ställ in miljön för att använda Aspose.Slides for Java för att konvertera PPTX till TXT
  2. Importera beroenden för bildparsing och filutmatning
  3. Ladda käll‑PPTX‑filen i minnet genom att använda Presentation‑klassen
  4. Hämta alla textramar för att samla varje textbehållare från alla slides
  5. Gå igenom alla ramarnas stycken och delar, och lägg till text i StringBuilder‑objektet
  6. Spara utdatafilen som en TXT‑fil

De ovan nämnda stegen sammanfattar processen för att extrahera text från PPTX med Java. Läs in presentationen, åtkomst till alla textramar, skapa ett StringBuilder-objekt, och iterera genom alla ramar för att hämta styckena. Från varje stycke, hämta delar, extrahera texten från varje del och lägg till den i StringBuilder‑instansen, och spara slutligen den ackumulerade texten i en TXT‑fil.

Kod för att konvertera PPTX till TXT med Java

Den här koden visar hur man konverterar PowerPoint till text med Java. Du kan extrahera text bild för bild med metoden SlideUtil.getAllTextBoxes() som tar en bild som indata och extraherar talarnoter med metoden slide.getNotesSlideManager().getNotesSlide(), samt extrahera text från tabeller med bilden.getShapes() som returnerar shape‑samlingen och filtrerar varje shape som är en instans av ITable. JSON‑utdata kan också genereras genom att fylla JsonObject och spara data i en JSONArray.

Den här artikeln förklarar processen för att konvertera PowerPoint till text. För att konvertera en presentation till video, se artikeln Konvertera PowerPoint till video med Java.

 Svenska