यह संक्षिप्त ट्यूटोरियल पायथन में PDF तालिका कैसे पढ़ें की प्रक्रिया का वर्णन करता है। यह विकास के माहौल को निर्धारित करने के लिए सभी बुनियादी जानकारी, एप्लिकेशन लिखने के लिए चरणों का एक क्रम और Python में पीडीएफ से तालिका निकालने के लिए एक रननेबल नमूना कोड प्रस्तुत करता है। आपको तालिका के प्रत्येक कक्ष तक पहुँचने और फिर उसमें सभी डेटा प्राप्त करने के लिए मार्गदर्शन मिलेगा।
पायथन का उपयोग करके पीडीएफ से तालिका डेटा निकालने के चरण
- तालिकाओं को पढ़ने के लिए वातावरण को .NET के माध्यम से पायथन के लिए Aspose.PDF का उपयोग करें पर सेट करें
- तालिका वाले Document वर्ग का उपयोग करके स्रोत PDF फ़ाइल लोड करें
- लोड की गई पीडीएफ फाइल से टेबल पढ़ने के लिए टेबलएब्जॉर्बर क्लास ऑब्जेक्ट का एक उदाहरण बनाएं
- एक पृष्ठ का चयन करें और उसमें सभी तालिकाओं को पार्स करें
- सेल में सभी TextFragment उदाहरण प्राप्त करने के लिए पहली तालिका तक पहुंचें और पंक्तियों और स्तंभों के माध्यम से विश्लेषण करें
- सभी टेक्स्ट फ़्रैगमेंट के माध्यम से पार्स करें और प्रत्येक फ़्रैगमेंट में टेक्स्ट प्रदर्शित करें
ये चरण Python में PDF तालिका पढ़ने की प्रक्रिया की व्याख्या करते हैं। पीडीएफ फाइल को लोड करके और फिर टेबलएब्जॉर्बर ऑब्जेक्ट बनाकर प्रक्रिया शुरू की जाती है जिसमें पीडीएफ फाइल से टेबल पढ़ने के तरीके हैं। एक बार जब किसी विशेष पृष्ठ पर सभी तालिकाओं को पार्स कर दिया जाता है, तो पहली तालिका को संग्रह से एक्सेस किया जाता है और फिर प्रत्येक पंक्ति और स्तंभ को डेटा प्राप्त करने के लिए इसमें टेक्स्ट अंशों का संग्रह प्राप्त करने के लिए पार्स किया जाता है।
पायथन का उपयोग करके पीडीएफ से तालिका निकालने के लिए कोड
उपरोक्त कोड से पता चलता है कि कैसे python का उपयोग करके pdf टेबल पढ़ी जाती है और प्रसंस्करण के लिए इसका डेटा प्राप्त किया जाता है। जब हम TableAbsorber वर्ग में विज़िट () विधि को कॉल करते हैं, तो यह उस table_list सरणी को भरता है जिसका उपयोग अलग-अलग तालिकाओं तक पहुँचने के लिए किया जाता है। तालिका संग्रह में प्रत्येक तालिका में row_list संपत्ति होती है जिसमें कॉलम संग्रह तक पहुंच प्रदान करने वाली एक cell_list संपत्ति होती है और अंत में आप किसी विशेष सेल में डेटा का संग्रह प्राप्त करने के लिए text_fragments संपत्ति तक पहुंच जाते हैं।
इस लेख ने हमें सिखाया है कि पीडीएफ से तालिका निकालने के लिए पायथन का उपयोग आसानी से किया जा सकता है। यदि आप PDF में बुकमार्क पढ़ने की प्रक्रिया सीखना चाहते हैं, तो पायथन का उपयोग करके पीडीएफ में बुकमार्क कैसे पढ़ें पर लेख देखें।