BeautifulSoup एक थर्ड पार्टी पायथन लाइब्रेरी है जिसका उपयोग वेब पेजों से डेटा को पार्स करने के लिए किया जाता है। यह वेब स्क्रैपिंग में मदद करता है, जो विभिन्न संसाधनों से डेटा निकालने, उपयोग करने और हेरफेर करने की एक प्रक्रिया है। साथ ही, यह डेवलपर्स को नेचुरल लैंग्वेज प्रोसेसिंग एप्लिकेशन में मदद करता है, डेटा का विश्लेषण करने में मदद करता है, और इससे अर्थ अंतर्दृष्टि निकालने में मदद करता है।
नेचुरल लैंग्वेज प्रोसेसिंग, या एनएलपी मशीन लर्निंग का एक हिस्सा है जो टेक्स्ट डेटा और इसे मशीन लर्निंग की समस्या के इनपुट के रूप में आपूर्ति करने के लिए प्री-प्रोसेसिंग के तरीकों से संबंधित है।
वेब स्क्रैपिंग का उपयोग अनुसंधान उद्देश्यों के लिए डेटा निकालने, बाजार के रुझानों को समझने/तुलना करने, एसईओ निगरानी करने आदि के लिए भी किया जा सकता है।
विंडोज़ पर ब्यूटीफुल सूप इंस्टाल करने के लिए नीचे की लाइन चलाई जा सकती है -
उदाहरण
pip install beautifulsoup4
import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen
import urllib
url = 'https://en.wikipedia.org/wiki/Algorithm'
parsed_uri = urllib.request.urlparse(url)
domainName = '{uri.scheme}://{uri.netloc}/'.format(uri=parsed_uri)
print("The domain name is : ")
print(domainName) आउटपुट
The domain name is : https://en.wikipedia.org/
स्पष्टीकरण
-
आवश्यक पैकेज आयात किए जाते हैं, और उपनामित होते हैं।
-
वेबसाइट परिभाषित है।
-
डोमेन नाम 'नेटलोक' और 'स्कीम' फ़ंक्शन का उपयोग करके निर्धारित किया जाता है।
-
डोमेन का नाम जानने के लिए 'urlparse' फ़ंक्शन को कॉल किया जाता है।
-
डोमेन नाम कंसोल पर प्रिंट होता है।