Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

वेब पेज को क्रॉल करने और सबसे अधिक बार शब्द प्राप्त करने के लिए पायथन प्रोग्राम

हमारा काम एक वेब पेज को क्रॉल करना और शब्द की आवृत्ति की गणना करना है। और अंततः सबसे अधिक बार आने वाले शब्दों को पुनः प्राप्त कर रहा है।

सबसे पहले हम अनुरोध और सुंदर सूप मॉड्यूल का उपयोग कर रहे हैं और इन मॉड्यूल की सहायता से वेब-क्रॉलर बना रहे हैं और वेब पेज से डेटा निकाल सकते हैं और एक सूची में स्टोर कर सकते हैं।

उदाहरण कोड

import requests
from bs4 import BeautifulSoup
import operator
from collections import Counter
def my_start(url):
   my_wordlist = []
   my_source_code = requests.get(url).text
   my_soup = BeautifulSoup(my_source_code, 'html.parser')
   for each_text in my_soup.findAll('div', {'class':'entry-content'}):
      content = each_text.text
      words = content.lower().split()
      for each_word in words:
         my_wordlist.append(each_word)
      clean_wordlist(my_wordlist)
# Function removes any unwanted symbols
def clean_wordlist(wordlist):
   clean_list =[]
   for word in wordlist: 
      symbols = '!@#$%^&*()_-+={[}]|\;:"<>?/., '
      for i in range (0, len(symbols)):
         word = word.replace(symbols[i], '')
      if len(word) > 0:
         clean_list.append(word)
   create_dictionary(clean_list)
def create_dictionary(clean_list):
   word_count = {}
   for word in clean_list:
      if word in word_count:
         word_count[word] += 1
      else:
         word_count[word] = 1
   c = Counter(word_count)
   # returns the most occurring elements
   top = c.most_common(10)
   print(top)
# Driver code
if __name__ == '__main__':
my_start("https://www.tutorialspoint.com/python3/python_overview.htm/")

आउटपुट

<केंद्र> वेब पेज को क्रॉल करने और सबसे अधिक बार शब्द प्राप्त करने के लिए पायथन प्रोग्राम
  1. पायथन प्रोग्राम में शब्दों को एक वाक्य में गिनें

    इस लेख में, हम नीचे दिए गए समस्या कथन के समाधान के बारे में जानेंगे। समस्या कथन - हमें एक स्ट्रिंग दी गई है, जिसे हमें स्ट्रिंग में शब्दों की संख्या गिनने की आवश्यकता है दृष्टिकोण 1 - विभाजन () फ़ंक्शन का उपयोग करना स्प्लिट फ़ंक्शन स्ट्रिंग को एक सीमांकक के रूप में अंतरिक्ष के साथ चलने योग्य सूची

  1. सबसे अधिक होने वाले चरित्र और उसकी गिनती को खोजने के लिए पायथन कार्यक्रम

    इस लेख में, हम दिए गए समस्या कथन को हल करने के लिए समाधान और दृष्टिकोण के बारे में जानेंगे। समस्या कथन एक इनपुट स्ट्रिंग को देखते हुए हमें सबसे अधिक होने वाले चरित्र और उसकी गिनती को खोजने की जरूरत है। दृष्टिकोण काउंटर पद्धति का उपयोग करके एक शब्दकोश बनाएं जिसमें स्ट्रिंग्स कुंजी के रूप में हों

  1. पायथन में सेट किए गए डेटा से k सबसे लगातार शब्द खोजें

    यदि डेटा सेट में 10 सबसे लगातार शब्दों को खोजने की आवश्यकता है, तो पायथन संग्रह मॉड्यूल का उपयोग करके इसे खोजने में हमारी सहायता कर सकता है। संग्रह मॉड्यूल में एक काउंटर वर्ग होता है जो शब्दों की एक सूची प्रदान करने के बाद शब्दों की गिनती देता है। प्रोग्राम इनपुट के लिए आवश्यक ऐसे शब्दों की संख्या क