Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

urllib.parse — पायथन में URL को घटकों में पार्स करें

यह मॉड्यूल घटकों में यूनिफ़ॉर्म रिसोर्स लोकेटर (URL) स्ट्रिंग्स को तोड़ने या घटकों को वापस URL स्ट्रिंग में संयोजित करने के लिए एक मानक इंटरफ़ेस प्रदान करता है। इसमें "सापेक्ष URL" को "आधार URL" दिए गए एक पूर्ण URL में बदलने का कार्य भी है।

यह मॉड्यूल निम्नलिखित URL योजनाओं का समर्थन करता है -

  • फ़ाइल
  • एफ़टीपी
  • गोफर
  • एचडीएल
  • http
  • https
  • इमैप
  • मेल करने के लिए
  • मिमी
  • समाचार
  • nntp
  • समृद्धि
  • rsync
  • आरटीएसपी
  • आरटीएसपीयू
  • sftp
  • shttp
  • घूंट
  • घूंट
  • समाचार
  • एसवीएन
  • svn+ssh
  • टेलनेट
  • वाइस
  • डब्ल्यूएस
  • wss

urlparse()

यह फ़ंक्शन एक URL को छह घटकों में पार्स करता है, और एक 6-टुपल लौटाता है। यह URL की सामान्य संरचना से मेल खाती है। प्रत्येक टपल आइटम एक स्ट्रिंग है। घटकों को छोटे भागों में विभाजित नहीं किया गया है (उदाहरण के लिए, नेटवर्क स्थान एक एकल स्ट्रिंग है), और % एस्केप का विस्तार नहीं किया गया है। वापसी मूल्य निम्नलिखित विशेषताओं से बने टपल के उपवर्ग का एक उदाहरण है:

<वें शैली="पाठ्य-संरेखण:केंद्र;">अनुक्रमणिका <वें शैली="पाठ्य-संरेखण:केंद्र;">मान
विशेषता मान मौजूद नहीं है तो
योजना 0 URL योजना विनिर्देशक स्कीम पैरामीटर
netloc 1 नेटवर्क स्थान भाग स्कीम पैरामीटर
पथ 2 पदानुक्रमित पथ खाली स्ट्रिंग
params 3 अंतिम पथ तत्व के लिए पैरामीटर खाली स्ट्रिंग
query 4 क्वेरी घटक खाली स्ट्रिंग
टुकड़ा 5 टुकड़ा पहचानकर्ता खाली स्ट्रिंग
उपयोगकर्ता नाम
उपयोगकर्ता नाम कोई नहीं
पासवर्ड
पासवर्ड कोई नहीं
होस्टनाम
होस्ट का नाम (लोअर केस) कोई नहीं
पोर्ट
पोर्ट नंबर पूर्णांक के रूप में, यदि मौजूद हो कोई नहीं

उदाहरण

>>> from urllib.parse import urlparse
>>> url = 'https://mail.google.com/mail/u/0/?tab = rm#inbox'
>>> t = urlparse(url)
ParseResult(scheme = 'https', netloc = 'mail.google.com', path = '/mail/u/0/', params = '', query = 'tab = rm', fragment = 'inbox')

urlunparse(भागों)

यह फ़ंक्शन urlparse() द्वारा लौटाए गए टुपल से एक यूआरएल बनाता है। भागों का तर्क कोई भी छह-आइटम चलने योग्य हो सकता है।

>>> from urllib.parse import urlunparse
>>> urlunparse(t)
'https://mail.google.com/mail/u/0/?tab = rm#inbox'

urlsplit(urlstring, scheme = '', allow_fragments = True):

यह urlparse() के समान है, लेकिन URL से पैरा को विभाजित नहीं करता है। यह फ़ंक्शन 5-टुपल देता है:(योजना, नेटवर्क स्थान, पथ, क्वेरी, खंड पहचानकर्ता को संबोधित करना)।

>>> from urllib.parse import urlsplit
>>> urlsplit(url)
SplitResult(scheme = 'https', netloc = 'mail.google.com', path = '/mail/u/0/', query = 'tab = rm', fragment = 'inbox')

urlunsplit(भागों)

यह फ़ंक्शन एक स्ट्रिंग के रूप में एक पूर्ण URL में urlsplit () द्वारा लौटाए गए टपल के तत्वों को जोड़ता है।

URL उद्धरण कार्य विशेष वर्णों को उद्धृत करके और गैर-ASCII पाठ को उचित रूप से एन्कोड करके प्रोग्राम डेटा लेने और URL घटकों के रूप में उपयोग के लिए इसे सुरक्षित बनाने पर ध्यान केंद्रित करते हैं।

उद्धरण ()

यह फ़ंक्शन %xx एस्केप का उपयोग करके स्ट्रिंग में विशेष वर्णों को प्रतिस्थापित करता है। अक्षर, अंक और वर्ण '_.-~' कभी भी उद्धृत नहीं किए जाते हैं।

>>> from urllib.parse import quote
>>> q = quote(url)
'https%3A//mail.google.com/mail/u/0/%3Ftab%3Drm%23inbox'
quote_plus():

उद्धरण () की तरह, लेकिन साथ ही रिक्त स्थान को प्लस चिह्नों से बदलें, जैसा कि URL में जाने के लिए एक क्वेरी स्ट्रिंग बनाते समय HTML फॉर्म मानों को उद्धृत करने के लिए आवश्यक है।

उद्धृत न करें ()

यह फ़ंक्शन %xx एस्केप को उनके एकल-वर्ण समकक्ष से बदल देता है।

>>> from urllib.parse import unquote
>>> unquote(q)
'https://mail.google.com/mail/u/0/?tab = rm#inbox'

urlencode()

यह फ़ंक्शन मैपिंग ऑब्जेक्ट या दो-तत्व टुपल्स के अनुक्रम को प्रतिशत-एन्कोडेड ASCII टेक्स्ट स्ट्रिंग में कनवर्ट करता है। परिणामी स्ट्रिंग '&' वर्णों द्वारा अलग किए गए कुंजी =मान जोड़े की एक श्रृंखला है।

>>> from urllib.parse import urlencode
>>> qry = {"name":"Rajeev", "salary":20000}
>>> urlencode(qry)
'name = Rajeev&salary = 20000'

  1. पायथन पांडा - टुपल-लाइक नामक घटक लौटाएं

    टुपल जैसे नाम के घटकों को वापस करने के लिए, timedelta.components . का उपयोग करें सबसे पहले, आवश्यक पुस्तकालयों को आयात करें - import pandas as pd टाइमडेल्टास पायथन का मानक डेटाटाइम लाइब्रेरी है जो एक अलग प्रतिनिधित्व टाइमडेल्टा का उपयोग करता है। Timedelta ऑब्जेक्ट बनाएं timedelta = pd.Timedelta(

  1. पायथन - पंडों को सेट में टाइप करना

    पंडों को सेट में टाइप करने के लिए, सेट () का उपयोग करें। सबसे पहले, हम एक DataFrame बनाते हैं - dataFrame = pd.DataFrame( { "EmpName": ['John', 'Ted', 'Jacob', 'Scarlett', 'Ami', 'Ted', 'Scarlett'], "Zone": [&

  1. पायथन (टिंकर) में एक वेब ब्राउज़र में प्रोग्रामेटिक रूप से यूआरएल खोलना

    पायथन में एक्सटेंशन और मॉड्यूल का एक समृद्ध पुस्तकालय है जो कई उद्देश्यों के लिए उपयोग किया जाता है। वेब-आधारित सामग्री के साथ काम करने के लिए, पायथन एक वेबब्राउज़र . प्रदान करता है मापांक। मॉड्यूल एक ऐसा वातावरण बनाता है जो उपयोगकर्ता को एप्लिकेशन में वेब-आधारित सामग्री प्रदर्शित करने में सक्षम बना