BeautifulSoup एक थर्ड पार्टी पायथन लाइब्रेरी है जिसका उपयोग वेब पेजों से डेटा को पार्स करने के लिए किया जाता है। यह प्राकृतिक भाषा प्रसंस्करण अनुप्रयोगों में डेवलपर्स की मदद करता है, डेटा का विश्लेषण करने में मदद करता है, और इससे अर्थ अंतर्दृष्टि निकालने में मदद करता है।
नेचुरल लैंग्वेज प्रोसेसिंग, या एनएलपी मशीन लर्निंग का एक हिस्सा है जो टेक्स्ट डेटा और इसे मशीन लर्निंग की समस्या के इनपुट के रूप में आपूर्ति करने के लिए प्री-प्रोसेसिंग के तरीकों से संबंधित है।
वेब स्क्रैपिंग का उपयोग अनुसंधान उद्देश्यों के लिए डेटा निकालने, बाजार के रुझानों को समझने/तुलना करने, एसईओ निगरानी करने आदि के लिए भी किया जा सकता है।
विंडोज़ पर ब्यूटीफुल सूप इंस्टाल करने के लिए नीचे की लाइन चलाई जा सकती है -
pip install beautifulsoup4
निम्नलिखित एक उदाहरण है -
उदाहरण
from bs4 import BeautifulSoup import requests url = "https://en.wikipedia.org/wiki/Algorithm" req = requests.get(url) soup = BeautifulSoup(req.text, "html.parser") print("The titles are :") print(soup.title)
आउटपुट
The titles are : <title>Algorithm − Wikipedia
स्पष्टीकरण
-
आवश्यक पैकेज आयात किए जाते हैं, और उपनामित होते हैं।
-
वेबसाइट परिभाषित है।
-
url खोला गया है, और इससे डेटा पढ़ा जाता है।
-
वेबपेज से टेक्स्ट निकालने के लिए 'ब्यूटीफुल सूप' फ़ंक्शन का उपयोग किया जाता है।
-
शीर्षक 'शीर्षक' विशेषता का उपयोग करके निकाले जाते हैं।
-
शीर्षक कंसोल पर मुद्रित होते हैं।