Извличане на текст от PowerPoint с Java

Този кратък урок обяснява как да извлечете текст от PowerPoint с Java. Той ще сподели подробности за настройване на IDE, списък със стъпки и примерен код за разработване на конвертор от PowerPoint към текст с Java. Ще бъдат обсъдени различни опции за извличане на текст от презентацията.

Стъпки за извличане на целия текст от PowerPoint с Java

  1. Задайте средата да използва Aspose.Slides for Java, за да конвертирате PPTX в TXT
  2. Импортирайте зависимостите за парсиране на слайдове и изход на файл
  3. Заредете изходния PPTX файл в паметта, като използвате класа Presentation
  4. Извлечете всички текстови рамки, за да съберете всеки текстов контейнер от всички slides
  5. Прегледайте всички абзаци и части от рамките и добавете текста към обекта StringBuilder.
  6. Запазете изходния файл като TXT файл

Горепосочените стъпки обобщават процеса за извличане на текст от PPTX с Java. Заредете презентацията, достъпете всички текстови рамки, създайте обект StringBuilder и итерирайте през всички рамки, за да извлечете абзаците. От всеки абзац извлечете части, извлечете текста от всяка част и го добавете към инстанцията на StringBuilder, след което запазете натрупания текст в TXT файл.

Код за конвертиране на PPTX в TXT с Java

Този код демонстрира как да конвертираме PowerPoint в текст с Java. Можете да извличате текста слайд по слайд, като използвате метода SlideUtil.getAllTextBoxes() който приема слайд като вход, и да извличате бележките на говорителя, като използвате метода slide.getNotesSlideManager().getNotesSlide() и да извличате текста от таблици, като използвате slide.getShapes() който връща колекцията от форми и филтрира всяка форма, която е инстанция на ITable. JSON изход може също да се генерира, като се попълни JsonObject и се запазят данните в JSONArray.

Тази статия обяснява процеса за конвертиране на PowerPoint в текст. За конвертиране на презентация във видео, вижте статията Convert PowerPoint to Video using Java.