विभिन्न प्रकार के संचालन को संभालने के लिए पायथन में पुस्तकालयों का एक बड़ा समूह है। PDF से डेटा और मेटा-सूचना निकालने के लिए, हम PyPdf2 पैकेज का उपयोग करते हैं। इसका उपयोग करना आसान है और इसमें कई अलग-अलग ऑपरेशन या टूलकिट हैं जैसे कि पीडीएफ से डेटा निकालना, दस्तावेज़ में कीवर्ड खोजना, मेटा जानकारी निकालना जैसे हाइपरलिंक, यूआरएल और अन्य जानकारी खोजना। PyPDF2 पैकेज का उपयोग करके, हम एक पीडीएफ दस्तावेज़ से हाइपरलिंक निकालेंगे।
हम पीडीएफ से हाइपरलिंक निकालने के लिए इन चरणों का पालन करेंगे,
-
स्थानीय मशीन में pip install PyPDF2 . लिखकर PyPDF2 इंस्टॉल करें कमांड शेल में।
-
PyPDF2 आयात करें।
-
फ़ाइल को बाइनरी मोड में खोलें और यह फ़ाइल में URL के पैटर्न को पहचानता है।
-
लिंक . निकालने के लिए एक फ़ंक्शन परिभाषित करें किसी विशेष पृष्ठ के लिए।
-
सभी पृष्ठों पर पुनरावृति करें और extractText() . का उपयोग करके टेक्स्ट को एक्सट्रेक्ट करें समारोह।
-
पीडीएफ से हाइपरलिंक निकालने के लिए हम आम तौर पर पायथन में पैटर्न मिलान अवधारणा का उपयोग करते हैं। अब पुनः आयात करें रेगुलर एक्सप्रेशन का उपयोग करके पैटर्न खोजने के लिए।
-
findall(regex, string) . का उपयोग करके http:// या https:// से मेल खाने वाला पैटर्न ढूंढें ।
-
अगर कोई यूआरएल मिलता है तो यूआरएल लौटाएं और स्क्रीन पर प्रिंट करें।
उदाहरण
# Import necessary packages
import PyPDF2
import re
# Open The File in the Command
file = open("newfile.pdf", 'rb')
readPDF = PyPDF2.PdfFileReader(file)
def find_url(string):
#Find all the String that matches with the pattern
regex = r"(https?://\S+)"
url = re.findall(regex,string)
for url in url:
return url
# Iterating over all the pages of File
for page_no in range(readPDF.numPages):
page=readPDF.getPage(page_no)
#Extract the text from the page
text = page.extractText()
# Print all URL
print(find_url(text))
# CLost the file
file.close() आउटपुट
उपरोक्त कोड को चलाने से दिए गए पीडीएफ दस्तावेज़ फ़ाइल में उपलब्ध सभी हाइपरलिंक प्रिंट हो जाएंगे।
