Извличане на текст от PowerPoint с Python

Този кратък наръчник описва как да извлечете текст от PowerPoint с помощта на Python. Той съдържа подробности за настройване на IDE, списък със стъпки и примерен код за конвертиране на PowerPoint в текст с Python. Ще бъдат обсъдени различни техники за извличане на текст от слайдовете.

Стъпки за извличане на текст от PPTX с Python

  1. Задайте IDE да използва Aspose.Slides for Python via .NET за извличане на текст
  2. Импортирайте желаните класове от библиотеката и помощния клас SlideUtil
  3. Определете пътищата за вход/изход и заредете лиценза
  4. Заредете изходната PowerPoint презентация в обекта Presentation
  5. Използвайте SlideUtil.get_all_text_frames за извличане на всички текстови рамки от всеки слайд
  6. Прегледайте всички текстови рамки и техните параграфи, за да съберете отделните текстови части
  7. Обработете всеки кадър и добавете съдържанието на слайда в нов ред
  8. Запазете всички събрани текстови части и запишете изхода в TXT файл

Тези стъпки обясняват процеса за разработване на PPTX към текстов конвертор с Python. Заредете презентацията, вземете всички текстови рамки от нея, анализирайте всеки параграф във всички рамки и извлечете текста от частите в тях. Запазете всички събрани данни в текстов файл с разделител на редове за всеки текстов сегмент.

Код за конвертиране на PowerPoint в текст с Python

Този код показва как да конвертирате PPTX в TXT с помощта на Python. Вместо да сканирате цялата презентация наведнъж, можете да достъпвате всеки слайд поотделно и да го обработвате, за да извлечете текста само от избраните слайдове. Друга опция е да не зареждате презентацията в паметта и просто да използвате пътя до файла, за да извлечете текста ѝ с флаг за извличане на текста в подредения ред, като оригинален или в плосък ред.

Тази кратка статия ръководи за извличане на текст от PPTX. За конвертиране на презентация във видео, вижте статията Конвертиране на PowerPoint във видео с Python.

 Български