वेब स्क्रैपिंग एक स्वचालित पद्धति का उपयोग करके किसी वेबसाइट से डेटा, सूचना या छवियों को निकालने का कार्य है। इसे पूर्ण स्वचालित पर कॉपी और पेस्ट के रूप में सोचें।
हम उन वेबसाइटों पर जाने के लिए या तो एक ऐप लिखते हैं या उसका उपयोग करते हैं जो हम चाहते हैं और उन वेबसाइटों से उन विशिष्ट चीजों की एक प्रति बनाते हैं जो हम चाहते हैं। यह पूरी वेबसाइट को डाउनलोड करने से कहीं अधिक सटीक है।
किसी भी उपकरण की तरह, वेब स्क्रैपिंग का उपयोग अच्छे या बुरे के लिए किया जा सकता है। वेबसाइटों को स्क्रैप करने के कुछ बेहतर कारण इसकी सामग्री, मूल्य तुलना खरीदारी, या स्टॉक मार्केट की जानकारी की निगरानी के आधार पर एक खोज इंजन में रैंकिंग करना होगा। आप इसे एक तरह के शोध उपकरण के रूप में भी इस्तेमाल कर सकते हैं।
मैं एक्सेल के साथ वेबसाइटों को कैसे स्क्रैप कर सकता हूं?
मानो या न मानो, एक्सेल में लंबे समय तक वेबसाइटों से डेटा निकालने की क्षमता है, कम से कम एक्सेल 2003 के बाद से। यह सिर्फ इतना है कि वेबस्क्रैपिंग एक ऐसी चीज है जिसके बारे में ज्यादातर लोग नहीं सोचते हैं, अकेले काम करने के लिए एस्प्रेडशीट प्रोग्राम का उपयोग करने के बारे में सोचें। . लेकिन यह आश्चर्यजनक रूप से आसान और शक्तिशाली है। आइए जानें कि माइक्रोसॉफ्ट ऑफिस कीबोर्ड शॉर्टकट का संग्रह बनाकर इसे कैसे किया जाता है।
वे साइटें ढूंढें जिन्हें आप स्क्रैप करना चाहते हैं
पहली चीज जो हम करने जा रहे हैं, वह उन विशिष्ट वेब पेजों को ढूंढना है जिनसे हम जानकारी प्राप्त करना चाहते हैं। आइए स्रोत पर जाएं और https://support.office.com/ पर खोजें। हम खोज शब्द "अक्सर उपयोग किए जाने वाले शॉर्टकट" का उपयोग करने जा रहे हैं। हम आउटलुक, एक्सेल, वर्ड आदि जैसे विशिष्ट ऐप के नाम का उपयोग करके इसे और अधिक विशिष्ट बना सकते हैं। परिणाम पृष्ठ को बुकमार्क करना एक अच्छा विचार हो सकता है ताकि हम वहां आसानी से वापस आ सकें।
खोज परिणाम पर क्लिक करें, "विंडोज के लिए एक्सेल में कीबोर्ड शॉर्टकट"। एक बार उस पृष्ठ पर, एक्सेल संस्करणों की सूची खोजें और नए संस्करण . पर क्लिक करें . अब हम नवीनतम और महानतम के साथ काम कर रहे हैं।
हम अपने खोज परिणाम पृष्ठ पर वापस जा सकते हैं और अन्य सभी Office ऐप्स के परिणामों को उनके अपने टैब में खोल सकते हैं और उन्हें बुकमार्क कर सकते हैं। इस अभ्यास के लिए भी यह एक अच्छा विचार है। यह वह जगह है जहां ज्यादातर लोग ऑफिस शॉर्टकट इकट्ठा करना बंद कर देंगे, लेकिन हम नहीं। हम उन्हें एक्सेल में डालने जा रहे हैं ताकि हम जब चाहें, उनके साथ जो चाहें कर सकें।
एक्सेल और स्क्रैप खोलें
एक्सेल खोलें और एक नई कार्यपुस्तिका शुरू करें। कार्यपुस्तिका को कार्यालय शॉर्टकट के रूप में सहेजें . यदि आपके पास OneDrive है, तो उसे वहां सहेजें ताकि स्वतः सहेजें फीचर काम करेगा।
कार्यपुस्तिका सहेज लिए जाने के बाद, डेटा . पर क्लिक करें टैब।
डेटा टैब के रिबन में, वेब से . पर क्लिक करें ।
वेब से विज़ार्डविंडो खुल जाएगी। यह वह जगह है जहां हम उस वेबसाइट का वेब पता या यूआरएल डालते हैं जिससे हम डेटा स्क्रैप करना चाहते हैं। अपने वेब ब्राउज़र पर स्विच करें और कॉपी करें यूआरएल.
URL को URL . में चिपकाएं वेब विज़ार्ड से फ़ील्ड। हम इसका उपयोग बुनियादी . में करना चुन सकते हैं या उन्नत तरीका। उन्नत मोड हमें वेबसाइट से डेटा का उपयोग करने के तरीके के बारे में बहुत अधिक विकल्प देता है। इस अभ्यास के लिए, हमें केवल बेसिकमोड की आवश्यकता है। ठीकक्लिक करें ।
एक्सेल अब वेबसाइट से जुड़ने का प्रयास करेगा। इसमें कुछ सेकेंड लग सकते हैं। अगर ऐसा होता है, तो हमें एक प्रगति विंडो दिखाई देगी।
नेविगेटर विंडो खुलेगी, और हम बाईं ओर वेबसाइट से तालिकाओं की एक सूची देखेंगे। जब हम एक का चयन करते हैं, तो हम दाईं ओर एक तालिका पूर्वावलोकन देखेंगे। आइए अक्सर उपयोग किए जाने वाले शॉर्टकट . का चयन करें टेबल।
हम वेबव्यू . पर क्लिक कर सकते हैं वास्तविक वेबसाइट देखने के लिए टैब, यदि हमें अपनी इच्छित तालिका के लिए चारों ओर देखने की आवश्यकता है। जब हमें यह मिल जाए, तो हम उस पर क्लिक कर सकते हैं और इसे आयात के लिए चुना जाएगा।
अब, हम लोड . पर क्लिक करते हैं इस विंडो के नीचे बटन। ऐसे अन्य विकल्प हैं जिन्हें हम चुन सकते हैं, जो अधिक जटिल हैं और हमारे पहले स्क्रैप को करने के दायरे से बाहर हैं। बस सावधान रहें कि वे वहां हैं। एक्सेल की वेब स्क्रैपिंग क्षमताएं बहुत शक्तिशाली हैं।
वेब तालिका कुछ सेकंड के बाद एक्सेल में लोड हो जाएगी। हम बाईं ओर डेटा देखेंगे, जहां संख्या 1 नीचे चित्र में है। नंबर 2 क्वेरी को हाइलाइट करता है वेबसाइट से डेटा प्राप्त करने के लिए उपयोग किया जाता है। जब हमारे पास एक कार्यपुस्तिका में एक से अधिक प्रश्न होते हैं, तो यह वह जगह है जहां हम उपयोग करने के लिए आवश्यक एक का चयन करते हैं।
ध्यान दें कि डेटा स्प्रेडशीट में एक्सेलटेबल के रूप में आता है। यह हमारे लिए डेटा को फ़िल्टर या सॉर्ट करने में सक्षम होने के लिए पहले से ही सेट है।
हम इस प्रक्रिया को उन सभी अन्य वेब पेजों के लिए दोहरा सकते हैं जिनमें ऑफिस शॉर्टकट हैं जो हम आउटलुक, वर्ड, एक्सेस, पावरपॉइंट और किसी अन्य ऑफिस ऐप के लिए चाहते हैं।
एक्सेल में स्क्रैप किए गए डेटा को वर्तमान रखना
आपके लिए एक बोनस के रूप में, हम सीखेंगे कि एक्सेल में अपने स्क्रैप किए गए डेटा को कैसे ताज़ा रखा जाए। डेटा स्क्रैपिंग के लिए एक्सेल कितना शक्तिशाली है, यह स्पष्ट करने का यह एक शानदार तरीका है। इसके साथ भी, हम केवल सबसे बुनियादी स्क्रैपिंग कर रहे हैं जो एक्सेल कर सकता है।
इस उदाहरण के लिए, आइए https://www.cnbc.com/stocks/ जैसे स्टॉक जानकारी वेब पेज का उपयोग करें।
हमने पहले जो किया था, उस पर गौर करें और एड्रेस बार से नए URL को कॉपी और पेस्ट करें।
आप नेविगेटर विंडो पर पहुंचेंगे और उपलब्ध टेबल देखेंगे। आइए प्रमुख यू.एस. स्टॉक इंडेक्स चुनें।
एक बार डेटा स्क्रैप हो जाने के बाद हम निम्नलिखित स्प्रेडशीट देखेंगे।
दाईं ओर, हम प्रमुख यू.एस. स्टॉक इंडेक्स के लिए क्वेरी देखते हैं। इसे चुनें ताकि इसे हाइलाइट किया जा सके। सुनिश्चित करें कि हम टेबल टूल्स . में हैं टैब और डिज़ाइन . में क्षेत्र। फिर ताज़ा करें . के अंतर्गत नीचे तीर पर क्लिक करें .फिर कनेक्शन गुण . पर क्लिक करें ।
क्वेरीप्रॉपर्टी . में विंडो, उपयोग . के अंतर्गत टैब पर, हम यह नियंत्रित कर सकते हैं कि यह जानकारी कैसे रीफ़्रेश होती है। जब हम अगली बार कार्यपुस्तिका खोलते हैं, या पृष्ठभूमि में ताज़ा करने के लिए, या इनमें से किसी भी संयोजन को ताज़ा करने के लिए, या ताज़ा करने के लिए हम एक विशिष्ट समयावधि निर्धारित कर सकते हैं। एक बार जब हम चुन लें कि वेनीड क्या है, तो ठीक . पर क्लिक करें विंडो बंद करने और जारी रखने के लिए।
इतना ही! अब आप स्टॉक की कीमतों, खेलकूद के स्कोर, या किसी अन्य डेटा को ट्रैक कर सकते हैं जो एक्सेल स्प्रेडशीट से बार-बार बदलता है। यदि आप एक्सेल समीकरणों और कार्यों के साथ अच्छे हैं, तो आप डेटा के साथ लगभग कुछ भी कर सकते हैं।
हो सकता है कि स्टॉक ट्रेंड की पहचान करने की कोशिश करें, काम पर एक फंतासी स्पोर्ट्स पूल चलाएं, या शायद मौसम का ट्रैक रखें। कौन जाने? आपकी कल्पना और इंटरनेट पर उपलब्ध डेटा ही एकमात्र सीमा है।