استخراج متن از پاورپوینت با استفاده از پایتون

این راهنمای کوتاه توضیح می‌دهد که چگونه متن را از PowerPoint با استفاده از Python استخراج کنید. این راهنما جزئیات تنظیم IDE، فهرستی از مراحل، و یک کد نمونه برای PowerPoint را به متن با استفاده از Python تبدیل کنید را دارد. تکنیک‌های مختلف برای استخراج متن از اسلایدها مورد بحث قرار خواهد گرفت.

مراحل استخراج متن از PPTX با استفاده از پایتون

  1. IDE را تنظیم کنید تا از Aspose.Slides for Python via .NET برای استخراج متن استفاده کند
  2. کلاس‌های مورد نظر را از کتابخانه و کلاس کمکی SlideUtil وارد کنید
  3. مسیرهای فایل ورودی/خروجی را تعریف کنید و مجوز را بارگذاری کنید
  4. ارائهٔ منبع PowerPoint را در شی Presentation بارگذاری کنید
  5. از SlideUtil.get_all_text_frames برای استخراج تمام فریم‌های متنی از هر اسلاید استفاده کنید
  6. تمام فریم‌های متن و پاراگراف‌های آن‌ها را تجزیه و تحلیل کنید تا بخش‌های متنی جداگانه را جمع‌آوری کنید
  7. پردازش هر فریم و افزودن محتوای اسلاید در یک خط جدید
  8. تمام بخش‌های متن جمع‌آوری‌شده را ذخیره کنید و خروجی را در یک فایل TXT ذخیره کنید

این مراحل فرآیند توسعه یک مبدل PPTX به متن با استفاده از پایتون را توضیح می‌دهند. ارائه را بارگذاری کنید، تمام فریم‌های متنی را از آن دریافت کنید، هر پاراگراف را در تمام فریم‌ها تجزیه کنید و متن را از بخش‌های آن استخراج کنید. تمام داده‌های جمع‌آوری‌شده را در یک فایل متنی با جداکننده خط برای هر بخش متنی ذخیره کنید.

کد مبدل پاورپوینت به متن با استفاده از پایتون

این کد نشان می‌دهد چگونه PPTX را به TXT با استفاده از پایتون تبدیل کنید. به‌جای اسکن کل ارائه به‌صورت یکجا، می‌توانید به هر اسلاید به‌صورت جداگانه دسترسی پیدا کنید و آن را پردازش کنید تا متن را فقط از اسلایدهای انتخاب‌شده استخراج کنید. گزینهٔ دیگر این است که ارائه را در حافظه بارگذاری نکنید و فقط از مسیر فایل برای استخراج متن آن استفاده کنید، با یک پرچم برای دریافت متن به ترتیب تنظیم‌شده، به‌صورت اصلی یا به‌صورت صاف.

این مقاله کوتاه راهنمای استخراج متن از یک فایل PPTX است. برای تبدیل یک ارائه به ویدیو، به مقاله Convert PowerPoint to video using Python مراجعه کنید.

 فارسی