Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

अजगर lxml का उपयोग करके वेब स्क्रैपिंग को लागू करना

इस लेख में, हम पाइथन में उपलब्ध एलएक्सएमएल मॉड्यूल का उपयोग करके वेब स्क्रैपिंग तकनीक के बारे में जानेंगे।

वेब स्क्रैपिंग क्या है?

वेब स्क्रैपिंग का उपयोग क्रॉलर/स्कैनर की सहायता से किसी वेबसाइट से डेटा प्राप्त करने/प्राप्त करने के लिए किया जाता है। वेब स्क्रैपिंग एक ऐसे वेब पेज से डेटा निकालने के लिए काम आता है जो एपीआई की कार्यक्षमता प्रदान नहीं करता है। पायथन में, वेब स्क्रैपिंग को विभिन्न मॉड्यूल जैसे ब्यूटीफुल सूप, स्क्रैपी और एलएक्सएमएल की मदद से किया जा सकता है।

यहां हम lxml मॉड्यूल का उपयोग करके वेब स्क्रैपिंग पर चर्चा करेंगे।

उसके लिए, हमें सबसे पहले lxml इंस्टॉल करना होगा

टर्मिनल या कमांड प्रॉम्प्ट में टाइप करें -

>>> pip install lxml

यहाँ xpath का उपयोग डेटा तक पहुँचने के लिए किया जाता है।

इस लेख में हम विभिन्न खेलों के बारे में जानकारी वाली वेबसाइट से डेटा निकालेंगे जिसे स्टीम के रूप में जाना जाता है।

https://store.steampowered.com/genre/Free%20to%20Play/

पृष्ठ पर, हम लोकप्रिय नए रिलीज़ अनुभाग से जानकारी निकालने का प्रयास करेंगे।

यहां हम नाम, मूल्य, संबद्ध टैग और लक्ष्य प्लेटफॉर्म निकालेंगे।

अजगर lxml का उपयोग करके वेब स्क्रैपिंग को लागू करना

पृष्ठ पर क्रोम में निरीक्षण तत्व सुविधा का उपयोग करके नए रिलीज टैब का एचटीएमएल कोड देखें। यहां हम जानेंगे कि कौन सा टैग आवश्यक जानकारी संग्रहीत कर रहा है।

यहाँ इस वेबसाइट में; प्रत्येक सूची तत्व एक div टैग id=tab_content में समाहित है जिसे आगे

में समाहित किया गया है
a div tag id=tab_select_newreleases

आइए अब कार्यान्वयन देखें


  1. पायथन में फोटोमोसाइक लागू करना

    photomosaic एक तकनीक है, जहां हम अपनी छवि को वर्गों के ग्रिड में विभाजित कर सकते हैं। प्रत्येक वर्ग को कुछ अन्य छवियों या रंगों से बदल दिया जाएगा। इसलिए जब हम वास्तविक छवि को एक निश्चित दूरी से देखना चाहते हैं, तो हम वास्तविक छवि देख सकते हैं, लेकिन अगर हम करीब आते हैं, तो हम विभिन्न रंगीन ब्लॉकों क

  1. पायथन में CX_Freeze का उपयोग करना

    कभी-कभी हमें कुछ अलग बनाने का मन करता है जो बहुत ही रोमांचक होता है, और मानव स्वभाव के अनुसार, हम हमेशा इसे साझा करना पसंद करते हैं। पायथन भी उन इच्छाओं को पूरा करता है। पायथन का उपयोग करते हुए, यदि हम अपने पायथन प्रोग्राम को अपने दोस्तों के साथ साझा करना चाहते हैं, तो हम ऐसा कर सकते हैं, केवल उन स

  1. वेब स्क्रैपिंग के लिए पायथन टूल्स

    कंप्यूटर विज्ञान में वेब स्क्रैपिंग का अर्थ है वेबसाइटों से डेटा निकालना। इस तकनीक का उपयोग करके वेब पर असंरचित डेटा को संरचित डेटा में रूपांतरित किया जाता है। Python3 में सबसे आम वेब स्क्रैपिंग टूल हैं - Urllib2 अनुरोध सुंदर सूप एलएक्सएमएल सेलेनियम मैकेनिकल सूप Urllib2 - यह टूल पायथन के साथ पहल