वाक्य में प्रत्येक शब्द का कूट बिन्दु प्राप्त करने के लिए सबसे पहले यह देखा जाता है कि वाक्य शब्द का प्रारंभ है या नहीं। फिर, यह देखने के लिए जाँच की जाती है कि क्या सभी वाक्यों के वर्णों की चपटी सूची में वर्ण का सूचकांक शब्द के विशिष्ट सूचकांक से शुरू होता है। एक बार यह सत्यापित हो जाने के बाद, प्रत्येक शब्द में प्रत्येक वर्ण का कोड बिंदु नीचे दी गई विधि का उपयोग करके प्राप्त किया जाता है।
स्क्रिप्ट पहचानकर्ता शब्द सीमाओं और उस स्थान को निर्धारित करने में मदद करते हैं जहां जोड़ा जाना चाहिए। शब्द सीमा को एक वाक्य की शुरुआत में जोड़ा जाता है और प्रत्येक वर्ण के लिए जिसकी लिपि उसके पिछले वर्ण से भिन्न होती है। RaggedTensor बनाने के लिए स्टार्ट ऑफ़सेट का उपयोग किया जा सकता है। इस रैग्ड टेंसर में सभी बैचों के शब्दों की सूची होगी
और पढ़ें: TensorFlow क्या है और Keras कैसे तंत्रिका नेटवर्क बनाने के लिए TensorFlow के साथ काम करता है?
आइए समझें कि पायथन का उपयोग करके यूनिकोड स्ट्रिंग्स का प्रतिनिधित्व कैसे करें, और यूनिकोड समकक्षों का उपयोग करने वालों में हेरफेर करें। सबसे पहले, हम यूनिकोड स्ट्रिंग्स को मानक स्ट्रिंग ऑप्स के यूनिकोड समकक्षों की सहायता से स्क्रिप्ट डिटेक्शन के आधार पर टोकन में अलग करते हैं।
हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है।
print("Check if sentence is the start of the word") sentence_char_starts_word = tf.concat( [tf.fill([sentence_char_script.nrows(), 1], True), tf.not_equal(sentence_char_script[:, 1:], sentence_char_script[:, :-1])], axis=1) print("Check if index of character starts from specific index of word in flattened list of characters from all sentences") word_starts = tf.squeeze(tf.where(sentence_char_starts_word.values), axis=1) print(word_starts) print("Get the code point of every character in every word") word_char_codepoint = tf.RaggedTensor.from_row_starts( values=sentence_char_codepoint.values, row_starts=word_starts) print(word_char_codepoint)
कोड क्रेडिट:https://www.tensorflow.org/tutorials/load_data/unicode
आउटपुट
Check if sentence is the start of the word Check if index of character starts from specific index of word in flattened list of characters from all sentences tf.Tensor([ 0 5 7 12 13 15], shape=(6,), dtype=int64) Get the code point of every character in every word <tf.RaggedTensor [[72, 101, 108, 108, 111], [44, 32], [116, 104, 101, 114, 101], [46], [19990, 30028], [12371, 12435, 12395, 12385, 12399]]>
स्पष्टीकरण
- स्क्रिप्ट पहचानकर्ता यह निर्धारित करने में सहायता करते हैं कि शब्द सीमाओं को कहाँ जोड़ा जाना चाहिए।
- प्रत्येक वाक्य की शुरुआत में और प्रत्येक वर्ण के लिए एक शब्द सीमा जोड़ी जाती है जिसकी लिपि उसके पिछले वर्ण से भिन्न होती है।
- अगला, इन स्टार्ट ऑफ़सेट्स का उपयोग रैग्डटेन्सर बनाने के लिए किया जा सकता है।
- इस रैग्ड टेंसर में सभी बैचों के शब्दों की सूची है