tf.text का उपयोग यह देखने के लिए कैसे किया जा सकता है कि क्या एक स्ट्रिंग में Python में एक निश्चित संपत्ति है?

यह देखने के लिए कि क्या किसी स्ट्रिंग में कोई विशेष गुण है या नहीं, 'HS_TITLE_CASE', 'IS_NUMERIC_VALUE', या 'HAS_SOME_PUNCT_OR_SYMBOL' जैसी विशिष्ट स्थितियों के साथ 'वर्डशेप' पद्धति का उपयोग किया जा सकता है।

और पढ़ें: TensorFlow क्या है और Keras कैसे तंत्रिका नेटवर्क बनाने के लिए TensorFlow के साथ काम करता है?

हम केरस अनुक्रमिक एपीआई का उपयोग करेंगे, जो एक अनुक्रमिक मॉडल बनाने में सहायक है जिसका उपयोग परतों के एक सादे ढेर के साथ काम करने के लिए किया जाता है, जहां हर परत में ठीक एक इनपुट टेंसर और एक आउटपुट टेंसर होता है।

एक तंत्रिका नेटवर्क जिसमें कम से कम एक परत होती है, एक दृढ़ परत के रूप में जानी जाती है। हम लर्निंग मॉडल बनाने के लिए कन्वेन्शनल न्यूरल नेटवर्क का उपयोग कर सकते हैं।

TensorFlow Text में टेक्स्ट से संबंधित क्लासेस और ऑप्स का संग्रह होता है जिसका उपयोग TensorFlow 2.0 के साथ किया जा सकता है। TensorFlow टेक्स्ट का उपयोग अनुक्रम मॉडलिंग को प्रीप्रोसेस करने के लिए किया जा सकता है।

हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है।

टोकनाइजेशन एक स्ट्रिंग को टोकन में तोड़ने की विधि है। ये टोकन शब्द, संख्या या विराम चिह्न हो सकते हैं। प्रमुख इंटरफेस में टोकेनाइज़र और टोकेनाइज़रविथऑफ़सेट शामिल हैं, जिनमें से प्रत्येक में क्रमशः एक ही विधि टोकननाइज़ और टोकनाइज़_विथ_ऑफ़सेट हैं। कई टोकननाइज़र हैं, जिनमें से प्रत्येक TokenizerWithOffsets (जो Tokenizer वर्ग का विस्तार करता है) को लागू करता है। इसमें मूल स्ट्रिंग में बाइट ऑफ़सेट प्राप्त करने का विकल्प शामिल है। यह मूल स्ट्रिंग में बाइट्स को जानने में मदद करता है जिससे टोकन बनाया गया था।

कुछ प्राकृतिक भाषा समझने वाले मॉडलों में उपयोग की जाने वाली एक सामान्य विशेषता यह देखना है कि टेक्स्ट स्ट्रिंग में कोई विशिष्ट गुण है या नहीं। Wordshape आपके इनपुट टेक्स्ट में विभिन्न प्रासंगिक पैटर्न से मेल खाने के लिए विभिन्न उपयोगी नियमित अभिव्यक्ति आधारित सहायक कार्यों को परिभाषित करता है। यहां कुछ उदाहरण दिए गए हैं।

उदाहरण

print("Whitespace tokenizer is being called")
tokenizer = text.WhitespaceTokenizer()
print("Tokens being generated")
tokens = tokenizer.tokenize(['Everything that is not saved will be lost.', u'Sad☹'.encode('UTF-8')])
print("Checking if it is capitalized")
f1 = text.wordshape(tokens, text.WordShape.HAS_TITLE_CASE)
print("Checking if all the letters are uppercase")
f2 = text.wordshape(tokens, text.WordShape.IS_UPPERCASE)
print("Checking if the tokens contain punctuation")
f3 = text.wordshape(tokens, text.WordShape.HAS_SOME_PUNCT_OR_SYMBOL)
print("Checking if the token is a number")
f4 = text.wordshape(tokens, text.WordShape.IS_NUMERIC_VALUE)
print("Printing the results")
print(f1.to_list())
print(f2.to_list())
print(f3.to_list())
print(f4.to_list())

कोड क्रेडिट -https://www.tensorflow.org/tutorials/tensorflow_text/intro

आउटपुट

Whitespace tokenizer is being called
Tokens being generated
Checking if it is capitalized
Checking if all the letters are uppercase
Checking if the tokens contain punctuation
Checking if the token is a number
Printing the results
[[True, False, False, False, False, False, False, False], [True]]
[[False, False, False, False, False, False, False, False], [False]]
[[False, False, False, False, False, False, False, True], [True]]
[[False, False, False, False, False, False, False, False], [False]]

स्पष्टीकरण

‘WhitespaceTokenizer’ को कहा जाता है, और टोकन जेनरेट किए जाते हैं।
अक्षरों की जांच यह देखने के लिए की जाती है कि वे अपरकेस हैं या नहीं।
यह विराम चिह्न के लिए भी जांचा जाता है और यह एक संख्या है या नहीं।
इन गणनाओं के बाद, बूल मान प्रदर्शित होते हैं