किसी दिए गए वाक्य से लगातार दो शब्दों से शब्दों की एक जोड़ी बनाकर एक बिग्राम बनता है। पायथन में, टेक्स्ट एनालिटिक्स में इस तकनीक का भारी उपयोग किया जाता है। नीचे हम इसे प्राप्त करने के दो तरीके देखते हैं।
गणना और विभाजन का उपयोग करना
इन दो विधियों का उपयोग करके हम पहले वाक्य को कई शब्दों में विभाजित करते हैं और फिर लगातार शब्दों से शब्दों की एक जोड़ी बनाने के लिए एन्यूमरेट फ़ंक्शन का उपयोग करते हैं।
उदाहरण
list = ['Stop. look left right. go'] print ("The given list is : \n" + str(list)) # Using enumerate() and split() for Bigram formation output = [(k, m.split()[n + 1]) for m in list for n, k in enumerate(m.split()) if n < len(m.split()) - 1] print ("Bigram formation from given list is: \n" + str(output))
आउटपुट
उपरोक्त कोड को चलाने से हमें निम्नलिखित परिणाम मिलते हैं -
The given list is : ['Stop. look left right. go'] Bigram formation from given list is: [('Stop.', 'look'), ('look', 'left'), ('left', 'right.'), ('right.', 'go')]
ज़िप () और स्प्लिट () का उपयोग करना
हम ज़िप और स्प्लिट फंक्शन का उपयोग करके बायग्राम भी बना सकते हैं। ज़िप () फ़ंक्शन शब्दों को क्रम में रखता है जो विभाजन () का उपयोग करके वाक्य से बनाए जाते हैं।
उदाहरण
list = ['Stop. look left right. go'] print ("The given list is : \n" + str(list)) # Using zip() and split() for Bigram formation output = [m for n in list for m in zip(n.split(" ")[:-1], n.split(" ")[1:])] print ("Bigram formation from given list is: \n" + str(output))
आउटपुट
उपरोक्त कोड को चलाने से हमें निम्नलिखित परिणाम मिलते हैं -
The given list is : ['Stop. look left right. go'] Bigram formation from given list is: [('Stop.', 'look'), ('look', 'left'), ('left', 'right.'), ('right.', 'go')]