Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

सुंदर सूप के साथ पायथन में वेब स्क्रैपिंग लागू करना?

सुंदर सूप अजगर के bs4 मॉड्यूल में एक वर्ग है। सुंदर सूप बनाने का मूल उद्देश्य HTML या XML दस्तावेज़ों को पार्स करना है।

bs4 इंस्टॉल करना (संक्षेप में सुंदर सूप)

पिप मॉड्यूल का उपयोग करने पर सुंदरसूप स्थापित करना आसान है। बस नीचे दिए गए कमांड को अपने कमांड शेल पर चलाएँ।

पाइप इंस्टाल bs4

आपके टर्मिनल पर कमांड से ऊपर चलने पर, आपकी स्क्रीन कुछ इस तरह दिखाई देगी -

C:\Users\rajesh>पाइप इंस्टाल bs4Collecting bs4डाउनलोडिंग https://files.pythonhosted.org/packages/10/ed/7e8b97591f6f456174139ec089c769f89a94a1a4025fe967691de971f314/bs4-0.0.1.tar. \python361\lib\साइट-पैकेज (bs4 से) (4.6.0) एकत्रित पैकेज के लिए पहियों का निर्माण:bs4 bs4 के लिए बिल्डिंग व्हील (setup.py) ... किया गया निर्देशिका में संग्रहीत:C:\Users\rajesh\AppData\Local\ पाइप\कैश\व्हील्स\a0\b0\b2\4f80b9456b87abedbc0bf2d52235414c3467d8889be38dd472सफलतापूर्वक निर्मित bs4संग्रहित पैकेज स्थापित करना:bs4सफलतापूर्वक स्थापित bs4-0.0.1

यह सत्यापित करने के लिए कि आपकी मशीन में सुंदर सूप सफलतापूर्वक स्थापित है या नहीं, बस उसी टर्मिनल में कमांड के नीचे चलाएँ-

C:\Users\rajesh>पायथनपायथन 3.6.1 (v3.6.1:69c0db5, मार्च 21 2017, 17:54:52) [MSC v.1900 32 बिट (इंटेल)] win32 पर "सहायता", "कॉपीराइट" टाइप करें अधिक जानकारी के लिए ", "क्रेडिट" या "लाइसेंस"।>>> bs4 से सुंदर सूप आयात करें>>>>>>> 

सफल, बढ़िया!.

उदाहरण 1

एक HTML दस्तावेज़ से सभी लिंक खोजें अब, मान लें कि हमारे पास एक HTML दस्तावेज़ है और हम दस्तावेज़ में सभी संदर्भ लिंक एकत्र करना चाहते हैं। तो सबसे पहले हम दस्तावेज़ को नीचे की तरह एक स्ट्रिंग के रूप में स्टोर करेंगे -

html_doc=''''''

अब हम सुंदर सूप के इनिशियलाइज़र फ़ंक्शन में उपरोक्त चर html_doc को पास करके एक सूप ऑब्जेक्ट बनाएंगे।

bs4 से आयात करें BeautifulSoupsoup =BeautifulSoup(html_doc, 'html.parser')

अब हमारे पास सूप ऑब्जेक्ट है, हम उस पर ब्यूटीफुल सूप क्लास के तरीके लागू कर सकते हैं। अब हम html_doc में दी गई विशेषताओं में टैग की सभी विशेषताएँ और मान पा सकते हैं।

सूप में टैग के लिए.find_all('a'):print(tag.get('href'))

उपरोक्त कोड से हम दस्तावेज़ में प्रत्येक प्राप्त करने और href विशेषता प्राप्त करने के लिए एक लूप के माध्यम से html_doc स्ट्रिंग में सभी लिंक प्राप्त करने का प्रयास कर रहे हैं।

html_doc स्ट्रिंग से सभी लिंक प्राप्त करने के लिए हमारा पूरा कोड नीचे दिया गया है।

bs4 आयात से BeautifulSouphtml_doc=''''''soup =BeautifulSoup(html_doc, 'html.parser) ') सूप में टैग के लिए.find_all('a'):print(tag.get('href'))

परिणाम

www.Tutorialspoint.comwww.nseindia.com.comwww.codesdope.comwww.google.comwww.facebook.comwww.wikipedia.orgwww.twitter.comwww.microsoft.comwww.github.comwww.nytimes.comwww.youtube.comwww .reddit.comwww.python.orgwww.stackoverflow.comwww.amazon.comwww.rediff.com

उदाहरण 2

लिंक में उल्लिखित विशिष्ट तत्व (उदाहरण के लिए:पायथन) वाली वेबसाइट से सभी लिंक प्रिंट करता है।

नीचे दिया गया प्रोग्राम एक विशिष्ट वेबसाइट से सभी यूआरएल प्रिंट करेगा जिसमें लिंक में "पायथन" शामिल है।

bs4 आयात से सुंदर सूप urllib.request आयात urlopenimport rehtml =urlopen ("https://www.python.org") सामग्री =html.read () सूप =सुंदर सूप (सामग्री) के लिए सूप में। ', href=True):if re.findall('python', a['href']):print("Python URL:", a['href'])

परिणाम

पायथन यूआरएल:https://docs.python.orgपायथन यूआरएल:https://pypi.python.org/Python यूआरएल:https://www.facebook.com/pythonlang?fref=tsPython यूआरएल:http:/ /brochure.getpython.info/Python URL:https://docs.python.org/3/license.htmlपायथन URL:https://wiki.python.org/moin/BeginnersGuidePython URL:https://devguide.python। org/पायथन यूआरएल:https://docs.python.org/faq/Python यूआरएल:https://wiki.python.org/moin/LanguagesPython यूआरएल:https://python.org/dev/peps/Python यूआरएल:https://wiki.python.org/moin/PythonBooksPython URL:https://wiki.python.org/moin/Python URL:https://www.python.org/psf/codeofconduct/Python URL:http:/ /planetpython.org/Python URL:/events/python-eventsPython URL:/events/python-user-group/Python URL:/events/python-events/past/Python URL:/events/python-user-group/past /पायथन यूआरएल:https://wiki.python.org/moin/PythonEventsCalendar#Submitting_an_EventPython URL://docs.python.org/3/tutorial/controlflow.html#defining-functionsPython URL://docs.python.org/ 3/ट्यूटोरियल/परिचय.html#li stsPython URL:https://docs.python.org/3/tutorial/introduction.html#using-python-as-a-calculatorPython URL://docs.python.org/3/tutorial/Python URL://docs .python.org/3/tutorial/controlflow.htmlपायथन URL:/downloads/release/python-373/Python URL:https://docs.python.orgपायथन URL://jobs.python.orgपायथन URL:https:// blog.python.orgपायथन यूआरएल:https://feedproxy.google.com/~r/PythonInsider/~3/Joo0vg55HKo/python-373-is-now-available.htmlपायथन यूआरएल:https://feedproxy.google.com/ ~r/PythonInsider/~3/N5tvkDIQ47g/python-3410-is-now-available.htmlपायथन यूआरएल:https://feedproxy.google.com/~r/PythonInsider/~3/n0mOibtx6_A/python-3.htmlपायथन यूआरएल:/इवेंट्स/पायथन-इवेंट/805/पायथन यूआरएल:/इवेंट्स/पायथन-इवेंट्स/817/पायथन यूआरएल:/इवेंट्स/पायथन-यूजर-ग्रुप/814/पायथन यूआरएल:/इवेंट्स/पायथन-इवेंट्स/789/पायथन यूआरएल:/इवेंट्स/पायथन-इवेंट/831/पायथन यूआरएल:/सक्सेस-स्टोरीज/बिल्डिंग-ए-ओपन-सोर्स-एंड-क्रॉस-प्लेटफॉर्म-एज्योर-क्ली-विद-पायथन/पायथन यूआरएल:/सक्सेस-स्टोरीज/बिल्डिंग-ए -ओपन-सोर्स-एंड-क्रॉस-प्लेटफॉर्म-एज़ूर-क्ली-विट h-python/Python URL:https://wiki.python.org/moin/TkInterPython URL:https://www.wxpython.org/Python URL:https://ipython.orgPython URL:#python-networkPython URL:https://brochure.getpython.info/Python URL:https://docs.python.org/3/license.htmlपायथन URL:https://wiki.python.org/moin/BeginnersGuidePython URL:https://devguide .python.org/Python URL:https://docs.python.org/faq/Python URL:https://wiki.python.org/moin/LanguagesPython URL:https://python.org/dev/peps/ पायथन URL:https://wiki.python.org/moin/PythonBooksPython URL:https://wiki.python.org/moin/Python URL:https://www.python.org/psf/codeofconduct/Python URL:https://planetpython.org/Python URL:/events/python-eventsPython URL:/events/python-user-group/Python URL:/events/python-events/past/Python URL:/events/python-user- group/past/Python URL:https://wiki.python.org/moin/PythonEventsCalendar#Submitting_an_EventPython URL:https://devguide.python.org/Python URL:https://bugs.python.org/Python URL:https://mail.python.org/mailman /listinfo/python-devPython URL:#python-networkPython URL:https://github.com/python/pythondotorg/issuesPython URL:https://status.python.org/

  1. पायथन में एलएक्सएमएल का उपयोग कर वेब स्क्रैपिंग कार्यान्वित करना?

    वेब स्क्रैपिंग न केवल डेटा विज्ञान के प्रति उत्साही बल्कि छात्रों या एक शिक्षार्थी को उत्साहित करता है, जो वेबसाइटों में गहराई से खुदाई करना चाहता है। पायथन कई वेबस्क्रैपिंग लाइब्रेरी प्रदान करता है, जिनमें शामिल हैं, स्क्रैपी उरलिब सुंदर सूप सेलेनियम पायथन अनुरोध एलएक्सएमएल हम

  1. पायथन में फोटोमोसाइक लागू करना

    photomosaic एक तकनीक है, जहां हम अपनी छवि को वर्गों के ग्रिड में विभाजित कर सकते हैं। प्रत्येक वर्ग को कुछ अन्य छवियों या रंगों से बदल दिया जाएगा। इसलिए जब हम वास्तविक छवि को एक निश्चित दूरी से देखना चाहते हैं, तो हम वास्तविक छवि देख सकते हैं, लेकिन अगर हम करीब आते हैं, तो हम विभिन्न रंगीन ब्लॉकों क

  1. वेब स्क्रैपिंग के लिए पायथन टूल्स

    कंप्यूटर विज्ञान में वेब स्क्रैपिंग का अर्थ है वेबसाइटों से डेटा निकालना। इस तकनीक का उपयोग करके वेब पर असंरचित डेटा को संरचित डेटा में रूपांतरित किया जाता है। Python3 में सबसे आम वेब स्क्रैपिंग टूल हैं - Urllib2 अनुरोध सुंदर सूप एलएक्सएमएल सेलेनियम मैकेनिकल सूप Urllib2 - यह टूल पायथन के साथ पहल