Hướng dẫn nhanh này giải thích cách trích xuất một bảng từ PDF đến Excel bằng Java. Bạn sẽ nhận được thông tin để thiết lập môi trường, danh sách các bước, và một đoạn mã mẫu để lấy bảng từ PDF vào Excel bằng Java. Tất cả các chi tiết cần thiết đều được trình bày để truy cập từng bảng trên bất kỳ trang PDF nào, truy cập văn bản từ tất cả các ô và sao chép nội dung vào ô tương ứng trong Workbook đầu ra.
Các bước để trích xuất bảng từ PDF sang Excel bằng Java
- Cài đặt môi trường để sử dụng Aspose.Total for Java để trích xuất bảng PDF sang bảng tính Excel
- Áp dụng giấy phép Aspose.Tổng cho các sản phẩm Aspose.PDF và Aspose.Cells
- Tải tệp PDF nguồn vào đối tượng lớp Document
- Tạo một tệp Excel trống bằng cách sử dụng lớp Workbook từ Aspose.Cells
- Duyệt qua mỗi trang trong PDF và truy cập bộ sưu tập bảng trên mỗi trang
- Lặp qua tất cả các trang và truy cập từng ô một.
- Lấy văn bản từ mỗi ô và lưu nội dung vào hàng và cột tương ứng trong bảng tính đích
- Tự động điều chỉnh kích thước các cột trong bảng và lưu tệp Excel đầu ra
Thực hiện các bước sau để lấy bảng từ PDF sang Excel bằng Java. Bắt đầu quá trình bằng cách tải tệp PDF nguồn, truy cập tất cả các trang trong đó, phân tích mỗi trang riêng biệt, lấy bộ sưu tập các bảng trên mỗi trang, và truy cập từng ô trong bảng đã chọn. Kết hợp văn bản trong một ô thành chuỗi và lưu nội dung vào hàng và cột tương ứng trên sheet cụ thể của tệp Excel đầu ra.
Mã để trích xuất bảng Excel từ PDF bằng Java
Đoạn mã này trình bày cách trích xuất dữ liệu từ bảng PDF sang Excel bằng Java. Định dạng văn bản nguồn PDF có thể được áp dụng cho bảng trong sheet Excel bằng cách lấy màu ô bảng PDF, kiểu chữ đậm/nghiêng, tên và kích thước phông chữ, và thiết lập tương tự trong ô Excel khi ghi nội dung. Hãy chú ý khi xử lý các bảng đã hợp nhất trong PDF và tạo chúng trong tệp Excel để giữ nguyên tổ chức nội dung bảng.
Bài viết này hướng dẫn quy trình sao chép văn bản từ bảng PDF sang bảng trong Excel. Để chuyển đổi PDF đã quét sang PDF có thể chỉnh sửa, hãy tham khảo bài viết Chuyển đổi PDF đã quét sang PDF có thể chỉnh sửa bằng Java.