Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

पायथन में पीडीएफ से हाइपरलिंक निकालें

विभिन्न प्रकार के संचालन को संभालने के लिए पायथन में पुस्तकालयों का एक बड़ा समूह है। PDF से डेटा और मेटा-सूचना निकालने के लिए, हम PyPdf2 पैकेज का उपयोग करते हैं। इसका उपयोग करना आसान है और इसमें कई अलग-अलग ऑपरेशन या टूलकिट हैं जैसे कि पीडीएफ से डेटा निकालना, दस्तावेज़ में कीवर्ड खोजना, मेटा जानकारी निकालना जैसे हाइपरलिंक, यूआरएल और अन्य जानकारी खोजना। PyPDF2 पैकेज का उपयोग करके, हम एक पीडीएफ दस्तावेज़ से हाइपरलिंक निकालेंगे।

हम पीडीएफ से हाइपरलिंक निकालने के लिए इन चरणों का पालन करेंगे,

  • स्थानीय मशीन में pip install PyPDF2 . लिखकर PyPDF2 इंस्टॉल करें कमांड शेल में।

  • PyPDF2 आयात करें।

  • फ़ाइल को बाइनरी मोड में खोलें और यह फ़ाइल में URL के पैटर्न को पहचानता है।

  • लिंक . निकालने के लिए एक फ़ंक्शन परिभाषित करें किसी विशेष पृष्ठ के लिए।

  • सभी पृष्ठों पर पुनरावृति करें और extractText() . का उपयोग करके टेक्स्ट को एक्सट्रेक्ट करें समारोह।

  • पीडीएफ से हाइपरलिंक निकालने के लिए हम आम तौर पर पायथन में पैटर्न मिलान अवधारणा का उपयोग करते हैं। अब पुनः आयात करें रेगुलर एक्सप्रेशन का उपयोग करके पैटर्न खोजने के लिए।

  • findall(regex, string) . का उपयोग करके https:// या https:// से मेल खाने वाला पैटर्न ढूंढें ।

  • अगर कोई यूआरएल मिलता है तो यूआरएल लौटाएं और स्क्रीन पर प्रिंट करें।

उदाहरण

# Import necessary packages
import PyPDF2
import re
# Open The File in the Command
file = open("newfile.pdf", 'rb')
readPDF = PyPDF2.PdfFileReader(file)
def find_url(string):
   #Find all the String that matches with the pattern
   regex = r"(https?://\S+)"
   url = re.findall(regex,string)
   for url in url:
      return url
# Iterating over all the pages of File
for page_no in range(readPDF.numPages):
   page=readPDF.getPage(page_no)
   #Extract the text from the page
   text = page.extractText()
   # Print all URL
   print(find_url(text))
# CLost the file
file.close()

आउटपुट

उपरोक्त कोड को चलाने से दिए गए पीडीएफ दस्तावेज़ फ़ाइल में उपलब्ध सभी हाइपरलिंक प्रिंट हो जाएंगे।

पायथन में पीडीएफ से हाइपरलिंक निकालें


  1. पायथन में सूचीबद्ध करने के लिए सीएसवी फ़ाइल विशिष्ट कॉलम निकालें

    पायथन में सूचीबद्ध करने के लिए विशिष्ट कॉलम के लिए सीएसवी फ़ाइल निकालने के लिए, हम पंडों का उपयोग कर सकते हैं read_csv() विधि। कदम उन स्तंभों की सूची बनाएं जिन्हें निकाला जाना है। read_csv() Use का उपयोग करें csv फ़ाइल को डेटा फ़्रेम में निकालने की विधि। निकाले गए डेटा को प्रिंट करें। प

  1. पायथन टिंकर के लिए पीडीएफ व्यूअर

    पायथन अपने पुस्तकालयों और एक्सटेंशन के बड़े सेट के लिए जाना जाता है, प्रत्येक अलग-अलग विशेषताओं, गुणों और उपयोग के मामलों के लिए। पीडीएफ फाइलों को संभालने के लिए, पायथन PyPDF2 . प्रदान करता है टूलकिट जो कई पृष्ठों को संसाधित करने, निकालने, विलय करने, पीडीएफ फाइलों को एन्क्रिप्ट करने, और बहुत कुछ करन

  1. Python का उपयोग करके PDF को CSV में बदलें

    पायथन अपने विशाल संकुल पुस्तकालय के लिए जाना जाता है। पुस्तकालयों की सहायता से, हम देखेंगे कि PDF को CSV फ़ाइल में कैसे परिवर्तित किया जाए। CSV फ़ाइल कुछ और नहीं बल्कि डेटा का एक संग्रह है, जिसे पंक्तियों और स्तंभों के एक सेट के साथ तैयार किया गया है। PDF को CSV में बदलने के लिए Python लाइब्रेरी में