जब कंप्यूटर प्राकृतिक भाषा को संसाधित करते हैं, तो कुछ अत्यंत सामान्य शब्द जो उपयोगकर्ता की आवश्यकता से मेल खाने वाले चुनिंदा दस्तावेज़ों की मदद करने में बहुत कम मूल्य के प्रतीत होते हैं, उन्हें पूरी तरह से शब्दावली से बाहर रखा गया है। इन शब्दों को स्टॉप वर्ड्स कहा जाता है।
उदाहरण के लिए, यदि आप इनपुट वाक्य को −
. के रूप में देते हैंJohn is a person who takes care of the people around him.
स्टॉप वर्ड रिमूवल के बाद, आपको आउटपुट मिलेगा -
['John', 'person', 'takes', 'care', 'people', 'around', '.']
NLTK के पास इन स्टॉपवर्ड्स का एक संग्रह है जिसका उपयोग हम किसी दिए गए वाक्य से इन्हें हटाने के लिए कर सकते हैं। यह NLTK.corpus मॉड्यूल के अंदर है। हम इसका उपयोग वाक्य से स्टॉप शब्दों को फ़िल्टर करने के लिए कर सकते हैं। उदाहरण के लिए,
उदाहरण
from nltk.corpus import stopwords from nltk.tokenize import word_tokenize my_sent = "John is a person who takes care of people around him." tokens = word_tokenize(my_sent) filtered_sentence = [w for w in tokens if not w in stopwords.words()] print(filtered_sentence)
आउटपुट
यह आउटपुट देगा -
['John', 'person', 'takes', 'care', 'people', 'around', '.']