पायथन का उपयोग करके Tensorflow में यूनिकोड संचालन कैसे किया जा सकता है?

यूनिकोड संचालन पहले स्ट्रिंग्स की लंबाई प्राप्त करके और इसे अन्य मानों पर सेट करके किया जा सकता है (डिफ़ॉल्ट मान 'बाइट' है)। कोड बिंदुओं के वेक्टर को एन्कोडेड स्ट्रिंग स्केलर में बदलने के लिए 'एन्कोड' विधि का उपयोग किया जाता है। यह प्रत्येक एन्कोडेड स्ट्रिंग में यूनिकोड कोड बिंदुओं को निर्धारित करने के लिए किया जाता है।

और पढ़ें: TensorFlow क्या है और Keras कैसे तंत्रिका नेटवर्क बनाने के लिए TensorFlow के साथ काम करता है?

मॉडल जो प्राकृतिक भाषा को संसाधित करते हैं वे विभिन्न भाषाओं को संभालते हैं जिनमें अलग-अलग वर्ण सेट होते हैं। यूनिकोड को मानक एन्कोडिंग प्रणाली के रूप में माना जाता है जिसका उपयोग लगभग सभी भाषाओं के चरित्र का प्रतिनिधित्व करने के लिए किया जाता है। प्रत्येक वर्ण को एक अद्वितीय पूर्णांक कोड बिंदु की सहायता से एन्कोड किया गया है जो 0 और 0x10FFFF के बीच है। यूनिकोड स्ट्रिंग शून्य या अधिक कोड मानों का एक क्रम है।

आइए समझें कि पायथन का उपयोग करके यूनिकोड स्ट्रिंग्स का प्रतिनिधित्व कैसे करें, और यूनिकोड समकक्षों का उपयोग करने वालों में हेरफेर करें। सबसे पहले, हम यूनिकोड स्ट्रिंग्स को मानक स्ट्रिंग ऑप्स के यूनिकोड समकक्षों की सहायता से स्क्रिप्ट डिटेक्शन के आधार पर टोकन में अलग करते हैं।

हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है।

print("The final character takes about 4 bytes in UTF-8 encoding")
thanks = u'Hello 😊'.encode('UTF-8')
num_bytes = tf.strings.length(thanks).numpy()
num_chars = tf.strings.length(thanks, unit='UTF8_CHAR').numpy()
print('{} bytes; {} UTF-8 characters'.format(num_bytes, num_chars))

कोड क्रेडिट:https://www.tensorflow.org/tutorials/load_data/unicode

आउटपुट

The final character takes about 4 bytes in UTF-8 encoding
10 bytes; 7 UTF-8 characters

स्पष्टीकरण

tf.strings.length ऑपरेशन में एक पैरामीटर इकाई होती है जो उस विधि को इंगित करती है जिसमें लंबाई की गणना करने की आवश्यकता होती है।
इकाई डिफ़ॉल्ट "BYTE" है, लेकिन इसे "UTF8_CHAR" या "UTF16_CHAR" जैसे अन्य मानों पर सेट किया जा सकता है।
यह प्रत्येक एन्कोडेड स्ट्रिंग में यूनिकोड कोडपॉइंट्स की संख्या को खोजने के लिए किया जाता है।