BeautifulSoup एक थर्ड पार्टी पायथन लाइब्रेरी है जिसका उपयोग वेब पेजों से डेटा को पार्स करने के लिए किया जाता है। यह वेब स्क्रैपिंग में मदद करता है, जो विभिन्न संसाधनों से डेटा निकालने, उपयोग करने और हेरफेर करने की एक प्रक्रिया है। साथ ही, यह डेवलपर्स को नेचुरल लैंग्वेज प्रोसेसिंग एप्लिकेशन में मदद करता है, डेटा का विश्लेषण करने में मदद करता है, और इससे अर्थ अंतर्दृष्टि निकालने में मदद करता है।
नेचुरल लैंग्वेज प्रोसेसिंग, या एनएलपी मशीन लर्निंग का एक हिस्सा है जो टेक्स्ट डेटा और इसे मशीन लर्निंग की समस्या के इनपुट के रूप में आपूर्ति करने के लिए प्री-प्रोसेसिंग के तरीकों से संबंधित है।
वेब स्क्रैपिंग का उपयोग अनुसंधान उद्देश्यों के लिए डेटा निकालने, बाजार के रुझानों को समझने/तुलना करने, एसईओ निगरानी करने आदि के लिए भी किया जा सकता है।
विंडोज़ पर ब्यूटीफुल सूप इंस्टाल करने के लिए नीचे की लाइन चलाई जा सकती है -
उदाहरण
pip install beautifulsoup4 import requests from bs4 import BeautifulSoup from urllib.request import urlopen import urllib url = 'https://en.wikipedia.org/wiki/Algorithm' parsed_uri = urllib.request.urlparse(url) domainName = '{uri.scheme}://{uri.netloc}/'.format(uri=parsed_uri) print("The domain name is : ") print(domainName)
आउटपुट
The domain name is : https://en.wikipedia.org/
स्पष्टीकरण
-
आवश्यक पैकेज आयात किए जाते हैं, और उपनामित होते हैं।
-
वेबसाइट परिभाषित है।
-
डोमेन नाम 'नेटलोक' और 'स्कीम' फ़ंक्शन का उपयोग करके निर्धारित किया जाता है।
-
डोमेन का नाम जानने के लिए 'urlparse' फ़ंक्शन को कॉल किया जाता है।
-
डोमेन नाम कंसोल पर प्रिंट होता है।