इस लेख में, हम बीटिफुल सूप और पायथन में अनुरोधों का उपयोग करके विकिपीडिया के इन्फोबॉक्स से पाठ को परिमार्जन करने जा रहे हैं। हम इसे 10 मिनट में कर सकते हैं। यह सीधा है।
हमें bs4 और अनुरोध स्थापित करने की आवश्यकता है। स्थापित करने के लिए नीचे दिए गए आदेशों को निष्पादित करें।
pip install bs4 pip install requests
इन्फोबॉक्स से जो टेक्स्ट हम चाहते हैं उसे लाने के लिए कोड लिखने के लिए नीचे दिए गए चरणों का पालन करें।
- bs4 आयात करें और मॉड्यूल का अनुरोध करें।
- उस पृष्ठ पर एक HTTP अनुरोध भेजें जिसे आप request.get() पद्धति का उपयोग करके डेटा प्राप्त करना चाहते हैं।
- bs4.BeautifulSoup क्लास का उपयोग करके प्रतिक्रिया टेक्स्ट को पार्स करें और इसे एक वेरिएबल में स्टोर करें।
- विकिपीडिया पृष्ठ पर जाएं और उस तत्व का निरीक्षण करें जो आप चाहते हैं।
- bs4 द्वारा प्रदान की गई उपयुक्त विधि का उपयोग करके तत्व खोजें।
आइए नीचे उदाहरण कोड देखें।
उदाहरण
# importing the module import requests import bs4 # URL URL = "https://en.wikipedia.org/wiki/India" # sending the request response = requests.get(URL) # parsing the response soup = bs4.BeautifulSoup(response.text, 'html') # Now, we have paresed HTML with us. I want to get the _motto_ from the wikipedia page. # Elements structure # table - class="infobox" # 3rd tr to get motto # getting infobox infobox = soup.find('table', {'class': 'infobox'}) # getting 3rd row element tr third_tr = infobox.find_all('tr')[2] # from third_tr we have to find first 'a' element and 'div' element to get required data first_a = third_tr.div.find('a') div = third_tr.div.div # motto motto = f"{first_a.text} {div.text[:len(div.text) - 3]}" # printing the motto print(motto)
यदि आप उपरोक्त कार्यक्रम चलाते हैं, तो आपको निम्न परिणाम प्राप्त होंगे।
आउटपुट
Satyameva Jayate "Truth Alone Triumphs"
निष्कर्ष
आप विकिपीडिया पृष्ठ में तत्व का निरीक्षण करके और उसे ढूंढकर अपनी इच्छानुसार कोई भी डेटा प्राप्त कर सकते हैं। यदि आपके पास ट्यूटोरियल के संबंध में कोई प्रश्न हैं, तो उनका उल्लेख टिप्पणी अनुभाग में करें।