Извлечение таблицы из PDF в Excel с помощью Java

Это быстрое руководство объясняет, как извлечь таблицу из PDF в Excel с помощью Java. Вы получите информацию по настройке окружения, список шагов и пример кода для переноса таблицы из PDF в Excel с использованием Java. Все необходимые детали продемонстрированы для доступа к каждой таблице на любой странице PDF, получения текста из всех ячеек и копирования содержимого в соответствующую ячейку в результирующей рабочей книге.

Шаги по извлечению таблицы из PDF в Excel с помощью Java

  1. Установите окружение, чтобы использовать Aspose.Total for Java для извлечения таблицы PDF в лист Excel.
  2. Примените лицензию Aspose.Total для продуктов Aspose.PDF и Aspose.Cells
  3. Загрузите исходный PDF‑файл в объект класса Document
  4. Создайте пустой файл Excel, используя класс Workbook из Aspose.Cells
  5. Пройдите по каждой странице PDF и получите доступ к коллекции таблиц на каждой странице
  6. Пройдите по всем страницам и получайте доступ к каждой ячейке по одной
  7. Получить текст из каждой ячейки и сохранить содержимое в соответствующей строке и столбце целевого листа
  8. Автоматически подгоните ширину столбцов в листе и сохраните полученный файл Excel

Следуйте этим шагам, чтобы получить таблицу из PDF в Excel с помощью Java. Начните процесс, загрузив исходный PDF‑файл, получив доступ ко всем его страницам, разбирая каждую страницу отдельно, получая коллекцию таблиц на каждой странице и получая доступ к каждой ячейке выбранной таблицы. Объедините текст внутри ячейки в строку и сохраните содержимое в соответствующей строке и столбце на конкретном листе выходного файла Excel.

Код для извлечения таблицы Excel из PDF с помощью Java

Этот код демонстрирует, как извлекать данные из таблицы PDF в Excel с помощью Java. Формат исходного текста PDF может быть применён к таблице листа Excel, получая цвет ячейки таблицы PDF, стиль полужирный/курсивный, название и размер шрифта, и устанавливая те же параметры в ячейку Excel при записи содержимого. Будьте внимательны при работе с объединёнными таблицами в PDF и их создании в файле Excel, чтобы сохранить одинаковую организацию содержимого таблицы.

Эта статья объясняет процесс копирования текста из таблицы PDF в таблицу листа Excel. Чтобы преобразовать отсканированный PDF в редактируемый PDF, обратитесь к статье Конвертировать отсканированный PDF в редактируемый PDF с помощью Java.

 Русский