Извлечение ссылок из PDF на Java

В этой короткой статье с практическими рекомендациями вы узнаете, как извлечь ссылки из PDF в Java. Она содержит настройки IDE, список шагов и пример кода для извлечения гиперссылок из PDF в Java. Вы научитесь извлекать аннотации типа ссылки и преобразовывать их в URIAction для извлечения URI.

Шаги по извлечению URL из PDF-файла в Java

  1. Настройте IDE на использование Aspose.PDF for Java для извлечения ссылок
  2. Загрузите исходный PDF-файл file, просмотрите все страницы и создайте селектор аннотаций для страницы.
  3. Извлеките все аннотации со страницы и сохраните их в выбранной коллекции.
  4. Пройдитесь по всем аннотациям и приведите каждую аннотацию к типу GoToURIAction
  5. Вызовите метод getURI() для доступа к ссылке и отображения ее на консоли.

В этом руководстве показано, как извлечь все ссылки из PDF в Java. Загрузите исходный файл PDF, получите доступ к целевым страницам и создайте селектор аннотаций для каждой страницы. Вызовите метод accept() с помощью определенного селектора, извлеките список аннотаций ссылок и извлеките URI, приведя его к классу GoToURIAction.

Код для извлечения гиперссылки из PDF-файла на Java

Приведенный выше код демонстрирует экстрактор ссылок PDF на Java. Вы можете пропустить или выбрать страницу, проанализировав ее содержимое с помощью объекта класса Page при итерации по страницам в PDF. Метод getAction() используется для извлечения URIAction, содержащего URI ссылки.

В этой статье мы изучили процесс извлечения гиперссылок из PDF. Чтобы создать гиперссылки в PDF, обратитесь к статье как создать гиперссылку в PDF с помощью Java.

 Русский