पायथन में unicode_split () का उपयोग करके स्ट्रिंग्स को वर्ण द्वारा विभाजित करने के लिए Tensorflow टेक्स्ट का उपयोग कैसे किया जा सकता है?

Tensorflow टेक्स्ट का उपयोग 'unicode_split' विधि का उपयोग करके स्ट्रिंग्स को वर्ण द्वारा विभाजित करने के लिए किया जा सकता है, पहले स्प्लिट स्ट्रिंग्स को एन्कोड करके, और फिर एक वेरिएबल को फ़ंक्शन कॉल असाइन करके। यह चर फ़ंक्शन कॉल का परिणाम रखता है।

और पढ़ें: TensorFlow क्या है और Keras कैसे तंत्रिका नेटवर्क बनाने के लिए TensorFlow के साथ काम करता है?

हम केरस अनुक्रमिक एपीआई का उपयोग करेंगे, जो एक अनुक्रमिक मॉडल बनाने में सहायक है जिसका उपयोग परतों के एक सादे ढेर के साथ काम करने के लिए किया जाता है, जहां हर परत में एक इनपुट टेंसर और एक आउटपुट टेंसर होता है।

एक तंत्रिका नेटवर्क जिसमें कम से कम एक परत होती है, एक दृढ़ परत के रूप में जानी जाती है। हम लर्निंग मॉडल बनाने के लिए कन्वेन्शनल न्यूरल नेटवर्क का उपयोग कर सकते हैं।

TensorFlow Text में टेक्स्ट से संबंधित क्लासेस और ऑप्स का संग्रह होता है जिसका उपयोग TensorFlow 2.0 के साथ किया जा सकता है। TensorFlow टेक्स्ट का उपयोग अनुक्रम मॉडलिंग को प्रीप्रोसेस करने के लिए किया जा सकता है।

हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है।

टोकनाइजेशन एक स्ट्रिंग को टोकन में तोड़ने की विधि है। ये टोकन शब्द, संख्या या विराम चिह्न हो सकते हैं।

महत्वपूर्ण इंटरफेस में Tokenizer और TokenizerWithOffsets शामिल हैं, जिनमें से प्रत्येक में क्रमशः एक ही विधि टोकननाइज़ और tokenize_with_offsets है। कई टोकननाइज़र हैं, जिनमें से प्रत्येक TokenizerWithOffsets (जो Tokenizer वर्ग का विस्तार करता है) को लागू करता है। इसमें मूल स्ट्रिंग में बाइट ऑफ़सेट प्राप्त करने का विकल्प शामिल है। यह मूल स्ट्रिंग में बाइट्स को जानने में मदद करता है जिससे टोकन बनाया गया था।

उदाहरण

print("The encoded characters are split")
tokens = tf.strings.unicode_split([u"仅今年前".encode('UTF-8')], 'UTF-8')
print("The tokenized data is converted to a list")
print(tokens.to_list())

कोड क्रेडिट -https://www.tensorflow.org/tutorials/tensorflow_text/intro

आउटपुट

The encoded characters are split
The tokenized data is converted to a list
[[b'\xe4\xbb\x85', b'\xe4\xbb\x8a', b'\xe5\xb9\xb4', b'\xe5\x89\x8d']]

स्पष्टीकरण

सभी टोकनर रैग्डटेन्सर्स को मूल व्यक्तिगत स्ट्रिंग्स में मैप किए गए टोकन के सबसे आंतरिक आयाम के साथ लौटाते हैं।
परिणामी आकार की रैंक एक से बढ़ जाती है।
जब शब्दों को विभाजित करने के लिए रिक्त स्थान का उपयोग किए बिना भाषाओं को टोकन करना, वर्ण द्वारा विभाजित करना आम है।
यह Tensorflow कोर में पाए गए unicode_split op का उपयोग करके किया जा सकता है।
एक बार यूनिकोड_स्प्लिट को कॉल करने के बाद, टोकनयुक्त डेटा एक सूची में जोड़ दिया जाता है।