यूनिकोड स्ट्रिंग को विभाजित किया जा सकता है, और बाइट ऑफ़सेट को क्रमशः 'unicode_split' विधि और 'unicode_decode_with_offsets' विधियों का उपयोग करके निर्दिष्ट किया जा सकता है। ये विधियाँ 'टेंसरफ़्लो' मॉड्यूल के 'स्ट्रिंग' वर्ग में मौजूद हैं।
और पढ़ें: TensorFlow क्या है और Keras कैसे तंत्रिका नेटवर्क बनाने के लिए TensorFlow के साथ काम करता है?
शुरू करने के लिए, पायथन का उपयोग करके यूनिकोड स्ट्रिंग्स का प्रतिनिधित्व करें, और यूनिकोड समकक्षों का उपयोग करने वालों में हेरफेर करें। मानक स्ट्रिंग ऑप्स के यूनिकोड समकक्षों की सहायता से स्क्रिप्ट डिटेक्शन के आधार पर यूनिकोड स्ट्रिंग्स को टोकन में अलग करें।
हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है।
print("Split unicode strings") tf.strings.unicode_split(thanks, 'UTF-8').numpy() codepoints, offsets = tf.strings.unicode_decode_with_offsets(u"🎈🎉🎊", 'UTF-8') print("Printing byte offset for characters") for (codepoint, offset) in zip(codepoints.numpy(), offsets.numpy()): print("At byte offset {}: codepoint {}".format(offset, codepoint))
कोड क्रेडिट:https://www.tensorflow.org/tutorials/load_data/unicode
आउटपुट
Split unicode strings Printing byte offset for characters At byte offset 0: codepoint 127880 At byte offset 4: codepoint 127881 At byte offset 8: codepoint 127882
स्पष्टीकरण
- tf.strings.unicode_split ऑपरेशन यूनिकोड स्ट्रिंग्स को अलग-अलग वर्णों के सबस्ट्रिंग में विभाजित करता है।
- उत्पन्न होने वाले वर्ण टेंसर को मूल स्ट्रिंग के साथ tf.strings.unicode_decode द्वारा संरेखित किया जाना है।
- इस उद्देश्य के लिए, यह जानना आवश्यक है कि प्रत्येक वर्ण कहाँ से शुरू होता है।
- विधि tf.strings.unicode_decode_with_offsets unicode_decode विधि के समान है, सिवाय इसके कि पूर्व एक दूसरा टेंसर देता है जिसमें प्रत्येक वर्ण का प्रारंभ ऑफसेट होता है।