Извлечение текста из PowerPoint с помощью Java

Этот короткий учебник объясняет, как извлечь текст из PowerPoint с помощью Java. Он поделится деталями по настройке IDE, списком шагов и примером кода для разработки конвертера PowerPoint в текст с использованием Java. Будут обсуждены различные варианты извлечения текста из презентации.

Шаги по извлечению всего текста из PowerPoint с помощью Java

  1. Установите окружение для использования Aspose.Slides for Java для преобразования PPTX в TXT
  2. Импортировать зависимости для разбора слайдов и вывода файлов
  3. Загрузите исходный файл PPTX в память, используя класс Presentation
  4. Получить все текстовые кадры, чтобы собрать каждый текстовый контейнер из всех slides
  5. Пройдите по всем абзацам и частям кадров и добавьте текст в объект StringBuilder
  6. Сохраните выходной файл как TXT‑файл

Вышеперечисленные шаги суммируют процесс извлекать текст из PPTX с помощью Java. Загрузите презентацию, получите доступ ко всем текстовым кадрам, создайте объект StringBuilder и пройдитесь по всем кадрам, чтобы извлечь абзацы. Из каждого абзаца получите части, извлеките текст из каждой части и добавьте его к экземпляру StringBuilder, а затем сохраните накопленный текст в файл TXT.

Код для преобразования PPTX в TXT с помощью Java

Этот код демонстрирует, как конвертировать PowerPoint в текст с помощью Java. Вы можете извлекать текст слайд за слайдом, используя метод SlideUtil.getAllTextBoxes() который принимает слайд в качестве входных данных, и извлекать заметки докладчика с помощью метода slide.getNotesSlideManager().getNotesSlide(), а также извлекать текст из таблиц, используя slide.getShapes() который возвращает коллекцию фигур и фильтровать каждую фигуру, являющуюся экземпляром ITable. Вывод в формате JSON также может быть сгенерирован путем заполнения JsonObject и сохранения данных в JSONArray.

Эта статья объясняет процесс преобразования PowerPoint в текст. Чтобы преобразовать презентацию в видео, обратитесь к статье Convert PowerPoint to Video using Java.

 Русский