एक वर्ण अनुक्रम और एक परिभाषित दस्तावेज़ इकाई को देखते हुए, टोकननाइज़ेशन इसे टुकड़ों में काटने का कार्य है, जिसे टोकन कहा जाता है, शायद उसी समय कुछ वर्णों को दूर करना, जैसे विराम चिह्न। एनएलटीके और पायथन के संदर्भ में, यह केवल प्रत्येक टोकन को एक सूची में डालने की प्रक्रिया है ताकि एक बार में प्रत्येक अक्षर पर पुनरावृति करने के बजाय, हम एक टोकन पर पुनरावृति कर सकें।
उदाहरण के लिए, इनपुट स्ट्रिंग दिया गया -
Hi man, how have you been?
हमें आउटपुट मिलना चाहिए -
['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']
हम NLTK से word_tokenize विधि का उपयोग करके इस टेक्स्ट को टोकनाइज़ कर सकते हैं। उदाहरण के लिए,
उदाहरण
from nltk.corpus import stopwords from nltk.tokenize import word_tokenize my_sent = "Hi man, how have you been?" tokens = word_tokenize(my_sent) print(tokens)
आउटपुट
यह आउटपुट देगा -
['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']