Extrair Texto do PowerPoint usando Java

Este breve tutorial explica como extrair texto de PowerPoint usando Java. Ele partilhará detalhes para configurar o IDE, uma lista de passos e um código de exemplo para desenvolver um conversor de PowerPoint para texto usando Java. Várias opções para extrair texto da apresentação serão discutidas.

Etapas para extrair todo o texto do PowerPoint usando Java

  1. Defina o ambiente para usar Aspose.Slides for Java para converter PPTX em TXT
  2. Importe as dependências para análise de slides e saída de arquivos
  3. Carregue o arquivo PPTX de origem na memória usando a classe Presentation
  4. Recupere todos os quadros de texto para coletar cada contêiner de texto de todos os slides
  5. Analise todos os parágrafos e trechos dos quadros e anexe o texto ao objeto StringBuilder
  6. Salve o arquivo de saída como um arquivo TXT

Os passos acima mencionados resumem o processo de extrair texto de PPTX usando Java. Carregue a apresentação, acesse todos os quadros de texto, crie um objeto StringBuilder e itere por todos os quadros para obter os parágrafos. De cada parágrafo, obtenha as porções, extraia o texto de cada porção e anexe‑o à instância StringBuilder, e finalmente salve o texto acumulado em um arquivo TXT.

Código para converter PPTX em TXT usando Java

Este código demonstra como converter PowerPoint em texto usando Java. Você pode extrair texto slide‑por‑slide usando o método SlideUtil.getAllTextBoxes() que recebe um slide como entrada e extrai as notas do apresentador usando o método slide.getNotesSlideManager().getNotesSlide() e extrair texto de tabelas usando o slide.getShapes() que retorna a coleção de shapes e filtra cada shape que seja uma instância de ITable. A saída JSON também pode ser gerada preenchendo o JsonObject e salvando os dados em um JSONArray.

Este artigo explica o processo de conversão do PowerPoint para texto. Para converter uma apresentação em vídeo, consulte o artigo Converter PowerPoint em vídeo usando Java.

 Português