Dieser Artikel beschreibt, wie Sie mit C# Links aus PDF extrahieren. Er enthält IDE-Einstellungen, Schritte und einen Beispielcode zum Entwickeln eines PDF-Link-Extraktors mit C#. Sie lernen, ausgewählte Anmerkungen von einer Seite abzurufen und URIs aus Anmerkungen vom Typ Link abzurufen.
Schritte zum Extrahieren einer URL aus einer PDF-Datei mit C#
- Stellen Sie die IDE so ein, dass sie Aspose.PDF for .NET verwendet, um die URI aus einer PDF-Seite zu extrahieren
- Laden Sie das Quell-PDF file und durchlaufen Sie alle darin enthaltenen Seiten
- Erstellen Sie einen annotation selector zum Suchen von Linkanmerkungen auf einer Seite
- Alle Anmerkungen extrahieren und die Liste der ausgewählten Anmerkungen abrufen
- Durchlaufen Sie jede Linkanmerkung und finden Sie zugehörige Aktionen
- Konvertieren Sie die Aktion in eine GoToURIAction, um auf die URI zuzugreifen und sie anzuzeigen
Diese Schritte beschreiben, wie Sie mit C# Hyperlinks aus PDF extrahieren. Erstellen Sie einen Annotation-Selektor für die Link-Annotationen und verwenden Sie ihn, um eine Liste mit Zielannotationen auszuwählen. Konvertieren Sie jede Link-Annotation in GoToURIAction und holen Sie die URI aus dieser Aktion.
Code zum Extrahieren von Hyperlinks aus PDF mit C#
Der obige Code zeigt, wie mit C# alle Links aus PDF extrahiert werden. Der AnnotationSelector nimmt ein LinkAnnotation-Objekt, das das Seiten- und Rechteckobjekt erfordert. Die Accept()-Methode in der Page-Klasse nimmt das Link-Selector-Objekt und speichert die Link-Anmerkungen in der Selected-Sammlung.
In diesem Kurztutorial haben wir gelernt, wie man Hyperlinks aus einer PDF-Seite extrahiert. Informationen zum Entfernen von Hyperlinks aus der PDF-Datei finden Sie im Artikel So entfernen Sie Hyperlinks aus PDF in C#.