इस लेख में, हम पाइथन में उपलब्ध एलएक्सएमएल मॉड्यूल का उपयोग करके वेब स्क्रैपिंग तकनीक के बारे में जानेंगे।
वेब स्क्रैपिंग क्या है?
वेब स्क्रैपिंग का उपयोग क्रॉलर/स्कैनर की सहायता से किसी वेबसाइट से डेटा प्राप्त करने/प्राप्त करने के लिए किया जाता है। वेब स्क्रैपिंग एक ऐसे वेब पेज से डेटा निकालने के लिए काम आता है जो एपीआई की कार्यक्षमता प्रदान नहीं करता है। पायथन में, वेब स्क्रैपिंग को विभिन्न मॉड्यूल जैसे ब्यूटीफुल सूप, स्क्रैपी और एलएक्सएमएल की मदद से किया जा सकता है।
यहां हम lxml मॉड्यूल का उपयोग करके वेब स्क्रैपिंग पर चर्चा करेंगे।
उसके लिए, हमें सबसे पहले lxml इंस्टॉल करना होगा।
टर्मिनल या कमांड प्रॉम्प्ट में टाइप करें -
>>> pip install lxml
यहाँ xpath का उपयोग डेटा तक पहुँचने के लिए किया जाता है।
इस लेख में, हम स्टीम नामक वेबसाइट से डेटा निकालेंगे जिसमें विभिन्न खेलों के बारे में जानकारी होगी।
https://store.steampowered.com/genre/Free%20to%20Play/
पृष्ठ पर, हम लोकप्रिय नए रिलीज़ अनुभाग से जानकारी निकालने का प्रयास करेंगे। यहां हम नाम, मूल्य, संबद्ध टैग और लक्ष्य प्लेटफॉर्म निकालेंगे।
पृष्ठ पर क्रोम में निरीक्षण तत्व सुविधा का उपयोग करके नए रिलीज टैब का एचटीएमएल कोड देखें। यहां हम जानेंगे कि कौन सा टैग आवश्यक जानकारी संग्रहीत कर रहा है।
यहाँ इस वेबसाइट में; प्रत्येक सूची तत्व एक div टैग id=tab_content में समझाया गया है जिसे आगे
में समझाया गया हैa div tag id=tab_select_newreleases
आइए अब कार्यान्वयन देखें