प्रत्येक यूनिकोड कोड बिंदु कोड बिंदुओं के एकल संग्रह से संबंधित होता है जिसे स्क्रिप्ट के रूप में जाना जाता है। एक चरित्र की लिपि उस भाषा को निर्धारित करती है जिससे चरित्र संबंधित होगा। TensorFlow 'strings.unicode_script' पद्धति के साथ आता है जो यह पता लगाने में मदद करता है कि किसी दिए गए कोडपॉइंट द्वारा कौन सी स्क्रिप्ट का उपयोग किया जाएगा। स्क्रिप्ट कोड int32 मान हैं जिन्हें यूनिकोड (ICU) UScriptCode मानों के लिए अंतर्राष्ट्रीय घटकों में मैप किया जा सकता है
और पढ़ें: TensorFlow क्या है और Keras कैसे तंत्रिका नेटवर्क बनाने के लिए TensorFlow के साथ काम करता है?
हम यह नहीं देखेंगे कि पायथन का उपयोग करके यूनिकोड स्ट्रिंग्स का प्रतिनिधित्व कैसे करें, और यूनिकोड समकक्षों का उपयोग करने वालों में हेरफेर करें। सबसे पहले, यूनिकोड स्ट्रिंग्स को मानक स्ट्रिंग ऑप्स के यूनिकोड समकक्षों की सहायता से स्क्रिप्ट डिटेक्शन के आधार पर टोकन में अलग करें।
हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है।
print("The below represent '芸' and 'Б' respectively") uscript = tf.strings.unicode_script([33464, 1041]) print(uscript.numpy()) # [17, 8] == [USCRIPT_HAN, USCRIPT_CYRILLIC] print("Applying to multidimensional strings") print(tf.strings.unicode_script(batch_chars_ragged))
कोड क्रेडिट:https://www.tensorflow.org/tutorials/load_data/unicode
आउटपुट
The below represent '芸' and 'Б' respectively [17 8] Applying to multidimensional strings <tf.RaggedTensor [[25, 25, 25, 25, 25], [25, 25, 25, 25, 0, 25, 25, 0, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 25], [25, 25, 25, 25, 25, 25, 25, 25, 25], [0]]>
स्पष्टीकरण
- हर यूनिकोड कोड बिंदु कोडपॉइंट के एकल संग्रह से संबंधित होता है जिसे स्क्रिप्ट के रूप में जाना जाता है।
- एक चरित्र की लिपि यह निर्धारित करने में मदद करती है कि चरित्र किस भाषा से संबंधित हो सकता है।
- TensorFlow यह पता लगाने के लिए tf.strings.unicode_script ऑपरेशन प्रदान करता है कि दिए गए कोडपॉइंट किस स्क्रिप्ट का उपयोग करेगा।
- स्क्रिप्ट कोड int32 मान हैं जो यूनिकोड (ICU) UScriptCode मानों के लिए अंतर्राष्ट्रीय घटकों को मैप करते हैं।
- tf.strings.unicode_script ऑपरेशन को बहुआयामी tf.Tensors या tf.RaggedTensors of codepoints पर भी लागू किया जा सकता है।