यूनिकोड संचालन पहले स्ट्रिंग्स की लंबाई प्राप्त करके और इसे अन्य मानों पर सेट करके किया जा सकता है (डिफ़ॉल्ट मान 'बाइट' है)। कोड बिंदुओं के वेक्टर को एन्कोडेड स्ट्रिंग स्केलर में बदलने के लिए 'एन्कोड' विधि का उपयोग किया जाता है। यह प्रत्येक एन्कोडेड स्ट्रिंग में यूनिकोड कोड बिंदुओं को निर्धारित करने के लिए किया जाता है।
और पढ़ें: TensorFlow क्या है और Keras कैसे तंत्रिका नेटवर्क बनाने के लिए TensorFlow के साथ काम करता है?
मॉडल जो प्राकृतिक भाषा को संसाधित करते हैं वे विभिन्न भाषाओं को संभालते हैं जिनमें अलग-अलग वर्ण सेट होते हैं। यूनिकोड को मानक एन्कोडिंग प्रणाली के रूप में माना जाता है जिसका उपयोग लगभग सभी भाषाओं के चरित्र का प्रतिनिधित्व करने के लिए किया जाता है। प्रत्येक वर्ण को एक अद्वितीय पूर्णांक कोड बिंदु की सहायता से एन्कोड किया गया है जो 0 और 0x10FFFF के बीच है। यूनिकोड स्ट्रिंग शून्य या अधिक कोड मानों का एक क्रम है।
आइए समझें कि पायथन का उपयोग करके यूनिकोड स्ट्रिंग्स का प्रतिनिधित्व कैसे करें, और यूनिकोड समकक्षों का उपयोग करने वालों में हेरफेर करें। सबसे पहले, हम यूनिकोड स्ट्रिंग्स को मानक स्ट्रिंग ऑप्स के यूनिकोड समकक्षों की सहायता से स्क्रिप्ट डिटेक्शन के आधार पर टोकन में अलग करते हैं।
हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है।
print("The final character takes about 4 bytes in UTF-8 encoding") thanks = u'Hello 😊'.encode('UTF-8') num_bytes = tf.strings.length(thanks).numpy() num_chars = tf.strings.length(thanks, unit='UTF8_CHAR').numpy() print('{} bytes; {} UTF-8 characters'.format(num_bytes, num_chars))
कोड क्रेडिट:https://www.tensorflow.org/tutorials/load_data/unicode
आउटपुट
The final character takes about 4 bytes in UTF-8 encoding 10 bytes; 7 UTF-8 characters
स्पष्टीकरण
- tf.strings.length ऑपरेशन में एक पैरामीटर इकाई होती है जो उस विधि को इंगित करती है जिसमें लंबाई की गणना करने की आवश्यकता होती है।
- इकाई डिफ़ॉल्ट "BYTE" है, लेकिन इसे "UTF8_CHAR" या "UTF16_CHAR" जैसे अन्य मानों पर सेट किया जा सकता है।
- यह प्रत्येक एन्कोडेड स्ट्रिंग में यूनिकोड कोडपॉइंट्स की संख्या को खोजने के लिए किया जाता है।