Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

पायथन प्रोग्रामिंग में एलएक्सएमएल का उपयोग करके वेब स्क्रैपिंग लागू करना

इस लेख में, हम पाइथन में उपलब्ध एलएक्सएमएल मॉड्यूल का उपयोग करके वेब स्क्रैपिंग तकनीक के बारे में जानेंगे।

वेब स्क्रैपिंग क्या है?

वेब स्क्रैपिंग का उपयोग क्रॉलर/स्कैनर की सहायता से किसी वेबसाइट से डेटा प्राप्त करने/प्राप्त करने के लिए किया जाता है। वेब स्क्रैपिंग एक ऐसे वेब पेज से डेटा निकालने के लिए काम आता है जो एपीआई की कार्यक्षमता प्रदान नहीं करता है। पायथन में, वेब स्क्रैपिंग को विभिन्न मॉड्यूल जैसे ब्यूटीफुल सूप, स्क्रैपी और एलएक्सएमएल की मदद से किया जा सकता है।

यहां हम lxml मॉड्यूल का उपयोग करके वेब स्क्रैपिंग पर चर्चा करेंगे।

उसके लिए, हमें सबसे पहले lxml इंस्टॉल करना होगा।

टर्मिनल या कमांड प्रॉम्प्ट में टाइप करें -

>>> pip install lxml

यहाँ xpath का उपयोग डेटा तक पहुँचने के लिए किया जाता है।

इस लेख में, हम स्टीम नामक वेबसाइट से डेटा निकालेंगे जिसमें विभिन्न खेलों के बारे में जानकारी होगी।

https://store.steampowered.com/genre/Free%20to%20Play/

पृष्ठ पर, हम लोकप्रिय नए रिलीज़ अनुभाग से जानकारी निकालने का प्रयास करेंगे। यहां हम नाम, मूल्य, संबद्ध टैग और लक्ष्य प्लेटफॉर्म निकालेंगे।

पायथन प्रोग्रामिंग में एलएक्सएमएल का उपयोग करके वेब स्क्रैपिंग लागू करना

पृष्ठ पर क्रोम में निरीक्षण तत्व सुविधा का उपयोग करके नए रिलीज टैब का एचटीएमएल कोड देखें। यहां हम जानेंगे कि कौन सा टैग आवश्यक जानकारी संग्रहीत कर रहा है।

यहाँ इस वेबसाइट में; प्रत्येक सूची तत्व एक div टैग id=tab_content में समझाया गया है जिसे आगे

में समझाया गया है
a div tag id=tab_select_newreleases

आइए अब कार्यान्वयन देखें


  1. पायथन में एलएक्सएमएल का उपयोग कर वेब स्क्रैपिंग कार्यान्वित करना?

    वेब स्क्रैपिंग न केवल डेटा विज्ञान के प्रति उत्साही बल्कि छात्रों या एक शिक्षार्थी को उत्साहित करता है, जो वेबसाइटों में गहराई से खुदाई करना चाहता है। पायथन कई वेबस्क्रैपिंग लाइब्रेरी प्रदान करता है, जिनमें शामिल हैं, स्क्रैपी उरलिब सुंदर सूप सेलेनियम पायथन अनुरोध एलएक्सएमएल हम

  1. पायथन में CX_Freeze का उपयोग करना

    कभी-कभी हमें कुछ अलग बनाने का मन करता है जो बहुत ही रोमांचक होता है, और मानव स्वभाव के अनुसार, हम हमेशा इसे साझा करना पसंद करते हैं। पायथन भी उन इच्छाओं को पूरा करता है। पायथन का उपयोग करते हुए, यदि हम अपने पायथन प्रोग्राम को अपने दोस्तों के साथ साझा करना चाहते हैं, तो हम ऐसा कर सकते हैं, केवल उन स

  1. वेब स्क्रैपिंग के लिए पायथन टूल्स

    कंप्यूटर विज्ञान में वेब स्क्रैपिंग का अर्थ है वेबसाइटों से डेटा निकालना। इस तकनीक का उपयोग करके वेब पर असंरचित डेटा को संरचित डेटा में रूपांतरित किया जाता है। Python3 में सबसे आम वेब स्क्रैपिंग टूल हैं - Urllib2 अनुरोध सुंदर सूप एलएक्सएमएल सेलेनियम मैकेनिकल सूप Urllib2 - यह टूल पायथन के साथ पहल