विभिन्न प्रकार के संचालन को संभालने के लिए पायथन में पुस्तकालयों का एक बड़ा समूह है। PDF से डेटा और मेटा-सूचना निकालने के लिए, हम PyPdf2 पैकेज का उपयोग करते हैं। इसका उपयोग करना आसान है और इसमें कई अलग-अलग ऑपरेशन या टूलकिट हैं जैसे कि पीडीएफ से डेटा निकालना, दस्तावेज़ में कीवर्ड खोजना, मेटा जानकारी निकालना जैसे हाइपरलिंक, यूआरएल और अन्य जानकारी खोजना। PyPDF2 पैकेज का उपयोग करके, हम एक पीडीएफ दस्तावेज़ से हाइपरलिंक निकालेंगे।
हम पीडीएफ से हाइपरलिंक निकालने के लिए इन चरणों का पालन करेंगे,
-
स्थानीय मशीन में pip install PyPDF2 . लिखकर PyPDF2 इंस्टॉल करें कमांड शेल में।
-
PyPDF2 आयात करें।
-
फ़ाइल को बाइनरी मोड में खोलें और यह फ़ाइल में URL के पैटर्न को पहचानता है।
-
लिंक . निकालने के लिए एक फ़ंक्शन परिभाषित करें किसी विशेष पृष्ठ के लिए।
-
सभी पृष्ठों पर पुनरावृति करें और extractText() . का उपयोग करके टेक्स्ट को एक्सट्रेक्ट करें समारोह।
-
पीडीएफ से हाइपरलिंक निकालने के लिए हम आम तौर पर पायथन में पैटर्न मिलान अवधारणा का उपयोग करते हैं। अब पुनः आयात करें रेगुलर एक्सप्रेशन का उपयोग करके पैटर्न खोजने के लिए।
-
findall(regex, string) . का उपयोग करके https:// या https:// से मेल खाने वाला पैटर्न ढूंढें ।
-
अगर कोई यूआरएल मिलता है तो यूआरएल लौटाएं और स्क्रीन पर प्रिंट करें।
उदाहरण
# Import necessary packages import PyPDF2 import re # Open The File in the Command file = open("newfile.pdf", 'rb') readPDF = PyPDF2.PdfFileReader(file) def find_url(string): #Find all the String that matches with the pattern regex = r"(https?://\S+)" url = re.findall(regex,string) for url in url: return url # Iterating over all the pages of File for page_no in range(readPDF.numPages): page=readPDF.getPage(page_no) #Extract the text from the page text = page.extractText() # Print all URL print(find_url(text)) # CLost the file file.close()
आउटपुट
उपरोक्त कोड को चलाने से दिए गए पीडीएफ दस्तावेज़ फ़ाइल में उपलब्ध सभी हाइपरलिंक प्रिंट हो जाएंगे।