Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

पायथन में एनएलटीके का उपयोग करके टेक्स्ट को टोकनाइज़ करें


एक वर्ण अनुक्रम और एक परिभाषित दस्तावेज़ इकाई को देखते हुए, टोकननाइज़ेशन इसे टुकड़ों में काटने का कार्य है, जिसे टोकन कहा जाता है, शायद उसी समय कुछ वर्णों को दूर करना, जैसे विराम चिह्न। एनएलटीके और पायथन के संदर्भ में, यह केवल प्रत्येक टोकन को एक सूची में डालने की प्रक्रिया है ताकि एक बार में प्रत्येक अक्षर पर पुनरावृति करने के बजाय, हम एक टोकन पर पुनरावृति कर सकें।

उदाहरण के लिए, इनपुट स्ट्रिंग दिया गया -

Hi man, how have you been?

हमें आउटपुट मिलना चाहिए -

['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']

हम NLTK से word_tokenize विधि का उपयोग करके इस टेक्स्ट को टोकनाइज़ कर सकते हैं। उदाहरण के लिए,

उदाहरण

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

my_sent = "Hi man, how have you been?"
tokens = word_tokenize(my_sent)

print(tokens)

आउटपुट

यह आउटपुट देगा -

['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']

  1. व्हाट्सएप पायथन का उपयोग कर रहा है?

    इस खंड में हम एक व्हाट्सएप चैटबॉट बनाने जा रहे हैं, लेकिन ट्विटर या फेसबुक के लिए कुछ अन्य चैटबॉट्स के विपरीत, व्हाट्सएप चैटबॉट व्हाट्सएप की नीतियों के कारण सीधे प्लेटफॉर्म पर नहीं चलते हैं। लेकिन प्राप्त करने का एक तरीका है, सेलेनियम का उपयोग करके, अजगर में एक बहुत ही स्मार्ट पैकेज जिसके साथ डेवलप

  1. पायथन का उपयोग करके लिनक्स टर्मिनल में स्वरूपित पाठ

    इस खंड में, हम देखेंगे कि लिनक्स टर्मिनल में स्वरूपित टेक्स्ट कैसे प्रिंट करें। फ़ॉर्मेटिंग करके, हम टेक्स्ट का रंग, शैली और कुछ विशेष सुविधाओं को बदल सकते हैं। लिनक्स टर्मिनल स्वरूपण, रंग और अन्य सुविधाओं को नियंत्रित करने के लिए कुछ एएनएसआई एस्केप अनुक्रमों का समर्थन करता है। इसलिए हमें टेक्स्ट क

  1. पायथन में CX_Freeze का उपयोग करना

    कभी-कभी हमें कुछ अलग बनाने का मन करता है जो बहुत ही रोमांचक होता है, और मानव स्वभाव के अनुसार, हम हमेशा इसे साझा करना पसंद करते हैं। पायथन भी उन इच्छाओं को पूरा करता है। पायथन का उपयोग करते हुए, यदि हम अपने पायथन प्रोग्राम को अपने दोस्तों के साथ साझा करना चाहते हैं, तो हम ऐसा कर सकते हैं, केवल उन स