Trích xuất văn bản từ PowerPoint bằng Java

Tutorial ngắn này giải thích cách trích xuất văn bản từ PowerPoint bằng Java. Nó sẽ chia sẻ chi tiết để thiết lập IDE, danh sách các bước, và một đoạn mã mẫu để phát triển một bộ chuyển đổi PowerPoint sang văn bản bằng Java. Nhiều tùy chọn để trích xuất văn bản từ bản trình chiếu sẽ được thảo luận.

Các bước để trích xuất toàn bộ văn bản từ PowerPoint bằng Java

  1. Đặt môi trường để sử dụng Aspose.Slides for Java để chuyển đổi PPTX sang TXT
  2. Nhập các phụ thuộc để phân tích slide và xuất tệp
  3. Tải tệp PPTX nguồn vào bộ nhớ bằng cách sử dụng lớp Presentation
  4. Lấy tất cả các khung văn bản để thu thập mọi hộp văn bản từ tất cả các slides
  5. Duyệt qua tất cả các đoạn văn và phần của các khung, và thêm văn bản vào đối tượng StringBuilder
  6. Lưu tệp đầu ra dưới dạng tệp TXT

Các bước đã nêu ở trên tóm tắt quy trình trích xuất văn bản từ PPTX bằng Java. Tải bản trình chiếu, truy cập tất cả các khung văn bản, tạo một đối tượng StringBuilder, và lặp qua tất cả các khung để lấy các đoạn văn. Từ mỗi đoạn, lấy các phần, trích xuất văn bản từ mỗi phần và nối chúng vào đối tượng StringBuilder, và cuối cùng lưu văn bản đã tích lũy vào một tệp TXT.

Mã chuyển đổi PPTX sang TXT bằng Java

Đoạn mã này minh họa cách chuyển đổi PowerPoint sang văn bản bằng Java. Bạn có thể trích xuất văn bản từng slide bằng phương thức SlideUtil.getAllTextBoxes() nhận một slide làm đầu vào, và trích xuất ghi chú người nói bằng phương thức slide.getNotesSlideManager().getNotesSlide(), và trích xuất văn bản từ các bảng bằng slide.getShapes() trả về một bộ sưu tập các shape và lọc ra mỗi shape là một thể hiện của ITable. Đầu ra JSON cũng có thể được tạo bằng cách điền JsonObject và lưu dữ liệu vào JSONArray.

Bài viết này giải thích quy trình chuyển đổi PowerPoint sang văn bản. Để chuyển đổi một bản trình chiếu sang video, tham khảo bài viết Chuyển đổi PowerPoint sang Video bằng Java.

 Tiếng Việt