पायथन प्रोग्रामिंग में एलएक्सएमएल का उपयोग करके वेब स्क्रैपिंग लागू करना

इस लेख में, हम पाइथन में उपलब्ध एलएक्सएमएल मॉड्यूल का उपयोग करके वेब स्क्रैपिंग तकनीक के बारे में जानेंगे।

वेब स्क्रैपिंग क्या है?

वेब स्क्रैपिंग का उपयोग क्रॉलर/स्कैनर की सहायता से किसी वेबसाइट से डेटा प्राप्त करने/प्राप्त करने के लिए किया जाता है। वेब स्क्रैपिंग एक ऐसे वेब पेज से डेटा निकालने के लिए काम आता है जो एपीआई की कार्यक्षमता प्रदान नहीं करता है। पायथन में, वेब स्क्रैपिंग को विभिन्न मॉड्यूल जैसे ब्यूटीफुल सूप, स्क्रैपी और एलएक्सएमएल की मदद से किया जा सकता है।

यहां हम lxml मॉड्यूल का उपयोग करके वेब स्क्रैपिंग पर चर्चा करेंगे।

उसके लिए, हमें सबसे पहले lxml इंस्टॉल करना होगा।

टर्मिनल या कमांड प्रॉम्प्ट में टाइप करें -

>>> pip install lxml

यहाँ xpath का उपयोग डेटा तक पहुँचने के लिए किया जाता है।

इस लेख में, हम स्टीम नामक वेबसाइट से डेटा निकालेंगे जिसमें विभिन्न खेलों के बारे में जानकारी होगी।

https://store.steampowered.com/genre/Free%20to%20Play/

पृष्ठ पर, हम लोकप्रिय नए रिलीज़ अनुभाग से जानकारी निकालने का प्रयास करेंगे। यहां हम नाम, मूल्य, संबद्ध टैग और लक्ष्य प्लेटफॉर्म निकालेंगे।

पायथन प्रोग्रामिंग में एलएक्सएमएल का उपयोग करके वेब स्क्रैपिंग लागू करना

पृष्ठ पर क्रोम में निरीक्षण तत्व सुविधा का उपयोग करके नए रिलीज टैब का एचटीएमएल कोड देखें। यहां हम जानेंगे कि कौन सा टैग आवश्यक जानकारी संग्रहीत कर रहा है।

यहाँ इस वेबसाइट में; प्रत्येक सूची तत्व एक div टैग id=tab_content में समझाया गया है जिसे आगे

में समझाया गया है

a div tag id=tab_select_newreleases

आइए अब कार्यान्वयन देखें