किसी वेबसाइट से 'href' लिंक निकालने के लिए ब्यूटीफुल सूप का उपयोग कैसे किया जा सकता है?

BeautifulSoup एक थर्ड पार्टी पायथन लाइब्रेरी है जिसका उपयोग वेब पेजों से डेटा को पार्स करने के लिए किया जाता है। यह वेब स्क्रैपिंग में मदद करता है, जो विभिन्न संसाधनों से डेटा निकालने, उपयोग करने और हेरफेर करने की एक प्रक्रिया है।

वेब स्क्रैपिंग का उपयोग अनुसंधान उद्देश्यों के लिए डेटा निकालने, बाजार के रुझानों को समझने/तुलना करने, एसईओ निगरानी करने आदि के लिए भी किया जा सकता है।

विंडोज़ पर ब्यूटीफुल सूप इंस्टाल करने के लिए नीचे की लाइन चलाई जा सकती है -

pip install beautifulsoup4

निम्नलिखित एक उदाहरण है -

उदाहरण

from bs4 import BeautifulSoup
import requests
url = "https://en.wikipedia.org/wiki/Algorithm"
req = requests.get(url)
soup = BeautifulSoup(req.text, "html.parser")
print("The href links are :")
for link in soup.find_all('a'):
   print(link.get('href'))

आउटपुट

The href links are :
…
https://stats.wikimedia.org/#/en.wikipedia.org
https://foundation.wikimedia.org/wiki/Cookie_statement
https://wikimediafoundation.org/
https://www.mediawiki.org/

स्पष्टीकरण

आवश्यक पैकेज आयात किए जाते हैं, और उपनामित होते हैं।
वेबसाइट परिभाषित है।
url खोला गया है, और इससे डेटा पढ़ा जाता है।
वेबपेज से टेक्स्ट निकालने के लिए 'ब्यूटीफुल सूप' फ़ंक्शन का उपयोग किया जाता है।
वेबपेज डेटा से टेक्स्ट निकालने के लिए 'find_all' फ़ंक्शन का उपयोग किया जाता है।
href लिंक कंसोल पर प्रिंट होते हैं।