यदि डेटा सेट में 10 सबसे लगातार शब्दों को खोजने की आवश्यकता है, तो पायथन संग्रह मॉड्यूल का उपयोग करके इसे खोजने में हमारी सहायता कर सकता है। संग्रह मॉड्यूल में एक काउंटर वर्ग होता है जो शब्दों की एक सूची प्रदान करने के बाद शब्दों की गिनती देता है। प्रोग्राम इनपुट के लिए आवश्यक ऐसे शब्दों की संख्या का पता लगाने के लिए हम सबसे_कॉमन विधि का भी उपयोग करते हैं।
उदाहरण
नीचे दिए गए उदाहरण में हम एक पैराग्राफ लेते हैं, और फिर पहले स्प्लिट () लागू करने वाले शब्दों की एक सूची बनाते हैं। फिर हम सभी शब्दों की गिनती खोजने के लिए काउंटर () लागू करेंगे। अंत में सबसे_कॉमन फ़ंक्शन हमें इस बात का उचित परिणाम देगा कि हम उच्चतम आवृत्ति वाले ऐसे कितने शब्द चाहते हैं।
from collections import Counter word_set = " This is a series of strings to count " \ "many words . They sometime hurt and words sometime inspire "\ "Also sometime fewer words convey more meaning than a bag of words "\ "Be careful what you speak or what you write or even what you think of. "\ # Create list of all the words in the string word_list = word_set.split() # Get the count of each word. word_count = Counter(word_list) # Use most_common() method from Counter subclass print(word_count.most_common(3))
आउटपुट
उपरोक्त कोड को चलाने से हमें निम्नलिखित परिणाम मिलते हैं -
[('words', 4), ('sometime', 3), ('what', 3)]