BeautifulSoup एक थर्ड पार्टी पायथन लाइब्रेरी है जिसका उपयोग वेब पेजों से डेटा को पार्स करने के लिए किया जाता है। यह वेब स्क्रैपिंग में मदद करता है, जो विभिन्न संसाधनों से डेटा निकालने, उपयोग करने और हेरफेर करने की एक प्रक्रिया है।
वेब स्क्रैपिंग का उपयोग अनुसंधान उद्देश्यों के लिए डेटा निकालने, बाजार के रुझानों को समझने/तुलना करने, एसईओ निगरानी करने आदि के लिए भी किया जा सकता है।
विंडोज़ पर ब्यूटीफुल सूप इंस्टाल करने के लिए नीचे की लाइन चलाई जा सकती है -
pip install beautifulsoup4
निम्नलिखित एक उदाहरण है -
उदाहरण
from bs4 import BeautifulSoup import requests url = "https://en.wikipedia.org/wiki/Algorithm" req = requests.get(url) soup = BeautifulSoup(req.text, "html.parser") print("The href links are :") for link in soup.find_all('a'): print(link.get('href'))
आउटपुट
The href links are : … https://stats.wikimedia.org/#/en.wikipedia.org https://foundation.wikimedia.org/wiki/Cookie_statement https://wikimediafoundation.org/ https://www.mediawiki.org/
स्पष्टीकरण
-
आवश्यक पैकेज आयात किए जाते हैं, और उपनामित होते हैं।
-
वेबसाइट परिभाषित है।
-
url खोला गया है, और इससे डेटा पढ़ा जाता है।
-
वेबपेज से टेक्स्ट निकालने के लिए 'ब्यूटीफुल सूप' फ़ंक्शन का उपयोग किया जाता है।
-
वेबपेज डेटा से टेक्स्ट निकालने के लिए 'find_all' फ़ंक्शन का उपयोग किया जाता है।
-
href लिंक कंसोल पर प्रिंट होते हैं।