Это быстрое руководство объясняет, как извлечь таблицу из PDF в Excel с помощью Java. Вы получите информацию по настройке окружения, список шагов и пример кода для переноса таблицы из PDF в Excel с использованием Java. Все необходимые детали продемонстрированы для доступа к каждой таблице на любой странице PDF, получения текста из всех ячеек и копирования содержимого в соответствующую ячейку в результирующей рабочей книге.
Шаги по извлечению таблицы из PDF в Excel с помощью Java
- Установите окружение, чтобы использовать Aspose.Total for Java для извлечения таблицы PDF в лист Excel.
- Примените лицензию Aspose.Total для продуктов Aspose.PDF и Aspose.Cells
- Загрузите исходный PDF‑файл в объект класса Document
- Создайте пустой файл Excel, используя класс Workbook из Aspose.Cells
- Пройдите по каждой странице PDF и получите доступ к коллекции таблиц на каждой странице
- Пройдите по всем страницам и получайте доступ к каждой ячейке по одной
- Получить текст из каждой ячейки и сохранить содержимое в соответствующей строке и столбце целевого листа
- Автоматически подгоните ширину столбцов в листе и сохраните полученный файл Excel
Следуйте этим шагам, чтобы получить таблицу из PDF в Excel с помощью Java. Начните процесс, загрузив исходный PDF‑файл, получив доступ ко всем его страницам, разбирая каждую страницу отдельно, получая коллекцию таблиц на каждой странице и получая доступ к каждой ячейке выбранной таблицы. Объедините текст внутри ячейки в строку и сохраните содержимое в соответствующей строке и столбце на конкретном листе выходного файла Excel.
Код для извлечения таблицы Excel из PDF с помощью Java
Этот код демонстрирует, как извлекать данные из таблицы PDF в Excel с помощью Java. Формат исходного текста PDF может быть применён к таблице листа Excel, получая цвет ячейки таблицы PDF, стиль полужирный/курсивный, название и размер шрифта, и устанавливая те же параметры в ячейку Excel при записи содержимого. Будьте внимательны при работе с объединёнными таблицами в PDF и их создании в файле Excel, чтобы сохранить одинаковую организацию содержимого таблицы.
Эта статья объясняет процесс копирования текста из таблицы PDF в таблицу листа Excel. Чтобы преобразовать отсканированный PDF в редактируемый PDF, обратитесь к статье Конвертировать отсканированный PDF в редактируемый PDF с помощью Java.