Extrahieren von Links aus PDF mit C#

Dieser Artikel beschreibt, wie Sie mit C# Links aus PDF extrahieren. Er enthält IDE-Einstellungen, Schritte und einen Beispielcode zum Entwickeln eines PDF-Link-Extraktors mit C#. Sie lernen, ausgewählte Anmerkungen von einer Seite abzurufen und URIs aus Anmerkungen vom Typ Link abzurufen.

Schritte zum Extrahieren einer URL aus einer PDF-Datei mit C#

  1. Stellen Sie die IDE so ein, dass sie Aspose.PDF for .NET verwendet, um die URI aus einer PDF-Seite zu extrahieren
  2. Laden Sie das Quell-PDF file und durchlaufen Sie alle darin enthaltenen Seiten
  3. Erstellen Sie einen annotation selector zum Suchen von Linkanmerkungen auf einer Seite
  4. Alle Anmerkungen extrahieren und die Liste der ausgewählten Anmerkungen abrufen
  5. Durchlaufen Sie jede Linkanmerkung und finden Sie zugehörige Aktionen
  6. Konvertieren Sie die Aktion in eine GoToURIAction, um auf die URI zuzugreifen und sie anzuzeigen

Diese Schritte beschreiben, wie Sie mit C# Hyperlinks aus PDF extrahieren. Erstellen Sie einen Annotation-Selektor für die Link-Annotationen und verwenden Sie ihn, um eine Liste mit Zielannotationen auszuwählen. Konvertieren Sie jede Link-Annotation in GoToURIAction und holen Sie die URI aus dieser Aktion.

Der obige Code zeigt, wie mit C# alle Links aus PDF extrahiert werden. Der AnnotationSelector nimmt ein LinkAnnotation-Objekt, das das Seiten- und Rechteckobjekt erfordert. Die Accept()-Methode in der Page-Klasse nimmt das Link-Selector-Objekt und speichert die Link-Anmerkungen in der Selected-Sammlung.

In diesem Kurztutorial haben wir gelernt, wie man Hyperlinks aus einer PDF-Seite extrahiert. Informationen zum Entfernen von Hyperlinks aus der PDF-Datei finden Sie im Artikel So entfernen Sie Hyperlinks aus PDF in C#.

 Deutsch