वाक्य में शब्दों के शुरुआती ऑफ़सेट का उपयोग करके एक रैग्ड टेन्सर बनाया जा सकता है। सबसे पहले, वाक्य में प्रत्येक शब्द में प्रत्येक वर्ण का कोड बिंदु बनाया जाता है। इसके बाद, वे कंसोल पर प्रदर्शित होते हैं। उस विशिष्ट वाक्य में शब्दों की संख्या निर्धारित की जाती है, और ऑफसेट निर्धारित किया जाता है।
और पढ़ें: TensorFlow क्या है और Keras कैसे तंत्रिका नेटवर्क बनाने के लिए TensorFlow के साथ काम करता है?
पायथन का उपयोग करके यूनिकोड स्ट्रिंग्स का प्रतिनिधित्व करें, और यूनिकोड समकक्षों का उपयोग करने वालों में हेरफेर करें। सबसे पहले, हम यूनिकोड स्ट्रिंग्स को मानक स्ट्रिंग ऑप्स के यूनिकोड समकक्षों की सहायता से स्क्रिप्ट डिटेक्शन के आधार पर टोकन में अलग करेंगे।
हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है।
print("Get the code point of every character in every word") word_char_codepoint = tf.RaggedTensor.from_row_starts( values=sentence_char_codepoint.values, row_starts=word_starts) print(word_char_codepoint) print("Get the number of words in the specific sentence") sentence_num_words = tf.reduce_sum(tf.cast(sentence_char_starts_word, tf.int64), axis=1)
कोड क्रेडिट:https://www.tensorflow.org/tutorials/load_data/unicode
आउटपुट
Get the code point of every character in every word <tf.RaggedTensor [[72, 101, 108, 108, 111], [44, 32], [116, 104, 101, 114, 101], [46], [19990, 30028], [12371, 12435, 12395, 12385, 12399]]> Get the number of words in the specific sentence
स्पष्टीकरण
- हर शब्द में प्रत्येक वर्ण के लिए कोड बिंदु बनाया गया है।
- ये कंसोल पर प्रदर्शित होते हैं।
- उस विशिष्ट वाक्य में शब्दों की संख्या निर्धारित की जाती है।