रैग्ड टेंसर के शब्द कोड बिंदु को निम्न विधि में विभाजित किया जा सकता है:सेगमेंटेशन टेक्स्ट को शब्द-जैसी इकाइयों में विभाजित करने के कार्य को संदर्भित करता है। इसका उपयोग उन मामलों में किया जाता है जहां शब्दों को अलग करने के लिए स्पेस वर्णों का उपयोग किया जाता है, लेकिन चीनी और जापानी जैसी कुछ भाषाएं रिक्त स्थान का उपयोग नहीं करती हैं। जर्मन जैसी कुछ भाषाओं में लंबे यौगिक होते हैं जिन्हें उनके अर्थ का विश्लेषण करने के लिए विभाजित करने की आवश्यकता होती है।
शब्द का कोड बिंदु वाक्य में वापस खंडित है। अगला कदम यह जांचना है कि किसी शब्द में किसी वर्ण के लिए कोड बिंदु वाक्य में मौजूद है या नहीं। यदि यह मौजूद है, तो एक रैग्ड टेंसर बनाया जाता है, और वाक्य को मानक एन्कोडिंग में वापस एन्कोड किया जाता है।
और पढ़ें: TensorFlow क्या है और Keras कैसे तंत्रिका नेटवर्क बनाने के लिए TensorFlow के साथ काम करता है?
आइए समझें कि पायथन का उपयोग करके यूनिकोड स्ट्रिंग्स का प्रतिनिधित्व कैसे करें, और यूनिकोड समकक्षों का उपयोग करने वालों में हेरफेर करें। सबसे पहले, हम यूनिकोड स्ट्रिंग्स को मानक स्ट्रिंग ऑप्स के यूनिकोड समकक्षों की सहायता से स्क्रिप्ट डिटेक्शन के आधार पर टोकन में अलग करते हैं।
हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है।
print("Segment the word code points back to sentences") print("Check if code point for a character in a word is present in the sentence") sentence_word_char_codepoint = tf.RaggedTensor.from_row_lengths( values=word_char_codepoint, row_lengths=sentence_num_words) print(sentence_word_char_codepoint) print("Encoding it back to UTF-8") tf.strings.unicode_encode(sentence_word_char_codepoint, 'UTF-8').to_list()
कोड क्रेडिट:https://www.tensorflow.org/tutorials/load_data/unicode
आउटपुट
Segment the word code points back to sentences Check if code point for a character in a word is present in the sentence <tf.RaggedTensor [[[72, 101, 108, 108, 111], [44, 32], [116, 104, 101, 114, 101], [46]], [[19990, 30028], [12371, 12435, 12395, 12385, 12399]]]> Encoding it back to UTF-8 [[b'Hello', b', ', b'there', b'.'], [b'\xe4\xb8\x96\xe7\x95\x8c', b'\xe3\x81\x93\xe3\x82\x93\xe3\x81\xab\xe3\x81\xa1\xe3\x81\xaf']]
स्पष्टीकरण
- कोड बिंदु वाक्यों में विभाजित हैं।
- यह निर्धारित किया जाता है कि किसी वर्ण के लिए कोड बिंदु वाक्य में मौजूद है या नहीं।
- डिकोड किया गया डेटा वापस UTF-8 एन्कोडिंग में एन्कोड किया गया है।