Этот короткий учебник объясняет, как извлечь текст из PowerPoint с помощью Java. Он поделится деталями по настройке IDE, списком шагов и примером кода для разработки конвертера PowerPoint в текст с использованием Java. Будут обсуждены различные варианты извлечения текста из презентации.
Шаги по извлечению всего текста из PowerPoint с помощью Java
- Установите окружение для использования Aspose.Slides for Java для преобразования PPTX в TXT
- Импортировать зависимости для разбора слайдов и вывода файлов
- Загрузите исходный файл PPTX в память, используя класс Presentation
- Получить все текстовые кадры, чтобы собрать каждый текстовый контейнер из всех slides
- Пройдите по всем абзацам и частям кадров и добавьте текст в объект StringBuilder
- Сохраните выходной файл как TXT‑файл
Вышеперечисленные шаги суммируют процесс извлекать текст из PPTX с помощью Java. Загрузите презентацию, получите доступ ко всем текстовым кадрам, создайте объект StringBuilder и пройдитесь по всем кадрам, чтобы извлечь абзацы. Из каждого абзаца получите части, извлеките текст из каждой части и добавьте его к экземпляру StringBuilder, а затем сохраните накопленный текст в файл TXT.
Код для преобразования PPTX в TXT с помощью Java
Этот код демонстрирует, как конвертировать PowerPoint в текст с помощью Java. Вы можете извлекать текст слайд за слайдом, используя метод SlideUtil.getAllTextBoxes() который принимает слайд в качестве входных данных, и извлекать заметки докладчика с помощью метода slide.getNotesSlideManager().getNotesSlide(), а также извлекать текст из таблиц, используя slide.getShapes() который возвращает коллекцию фигур и фильтровать каждую фигуру, являющуюся экземпляром ITable. Вывод в формате JSON также может быть сгенерирован путем заполнения JsonObject и сохранения данных в JSONArray.
Эта статья объясняет процесс преобразования PowerPoint в текст. Чтобы преобразовать презентацию в видео, обратитесь к статье Convert PowerPoint to Video using Java.