Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

यूनिकोड स्ट्रिंग को कैसे विभाजित किया जा सकता है, और बाइट ऑफ़सेट को Tensorflow और Python के साथ निर्दिष्ट किया जा सकता है?

यूनिकोड स्ट्रिंग को विभाजित किया जा सकता है, और बाइट ऑफ़सेट को क्रमशः 'unicode_split' विधि और 'unicode_decode_with_offsets' विधियों का उपयोग करके निर्दिष्ट किया जा सकता है। ये विधियाँ 'टेंसरफ़्लो' मॉड्यूल के 'स्ट्रिंग' वर्ग में मौजूद हैं।

और पढ़ें: TensorFlow क्या है और Keras कैसे तंत्रिका नेटवर्क बनाने के लिए TensorFlow के साथ काम करता है?

शुरू करने के लिए, पायथन का उपयोग करके यूनिकोड स्ट्रिंग्स का प्रतिनिधित्व करें, और यूनिकोड समकक्षों का उपयोग करने वालों में हेरफेर करें। मानक स्ट्रिंग ऑप्स के यूनिकोड समकक्षों की सहायता से स्क्रिप्ट डिटेक्शन के आधार पर यूनिकोड स्ट्रिंग्स को टोकन में अलग करें।

हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है।

print("Split unicode strings")
tf.strings.unicode_split(thanks, 'UTF-8').numpy()
codepoints, offsets = tf.strings.unicode_decode_with_offsets(u"🎈🎉🎊", 'UTF-8')
print("Printing byte offset for characters")
for (codepoint, offset) in zip(codepoints.numpy(), offsets.numpy()):
   print("At byte offset {}: codepoint {}".format(offset, codepoint))

कोड क्रेडिट:https://www.tensorflow.org/tutorials/load_data/unicode

आउटपुट

Split unicode strings
Printing byte offset for characters
At byte offset 0: codepoint 127880
At byte offset 4: codepoint 127881
At byte offset 8: codepoint 127882

स्पष्टीकरण

  • tf.strings.unicode_split ऑपरेशन यूनिकोड स्ट्रिंग्स को अलग-अलग वर्णों के सबस्ट्रिंग में विभाजित करता है।
  • उत्पन्न होने वाले वर्ण टेंसर को मूल स्ट्रिंग के साथ tf.strings.unicode_decode द्वारा संरेखित किया जाना है।
  • इस उद्देश्य के लिए, यह जानना आवश्यक है कि प्रत्येक वर्ण कहाँ से शुरू होता है।
  • विधि tf.strings.unicode_decode_with_offsets unicode_decode विधि के समान है, सिवाय इसके कि पूर्व एक दूसरा टेंसर देता है जिसमें प्रत्येक वर्ण का प्रारंभ ऑफसेट होता है।

  1. मैं पायथन में str और int ऑब्जेक्ट्स को कैसे जोड़ सकता हूं?

    संख्याओं के साथ एक स्ट्रिंग को संयोजित करने के लिए, आपको संख्याओं को स्ट्रिंग में डालने के लिए str(number) का उपयोग करना होगा। उदाहरण के लिए, >>> a = "string" >>> b = 1 >>> print a + str(b) string1 पायथन 2 में, आप संख्या को घेरने के लिए बैकटिक (``) का भी उपयोग क

  1. पायथन में अपर केस अक्षरों और अंकों के साथ यादृच्छिक तार कैसे उत्पन्न करें?

    यादृच्छिक वर्ण प्राप्त करने के लिए आप random.choice(list_of_choices) का उपयोग कर सकते हैं। फिर इस पर लूप करें और एक सूची प्राप्त करें और अंत में एक स्ट्रिंग प्राप्त करने के लिए इस सूची में शामिल हों। यहां विकल्पों की सूची अपर केस लेटर्स और डिजिट्स हैं। उदाहरण के लिए: import string import random def

  1. हम पायथन में कई सीमांकक के साथ एक स्ट्रिंग को कैसे तोड़ सकते हैं?

    हम re.split(delimiter, str) विधि का उपयोग करके कई सीमांकक के साथ एक स्ट्रिंग को तोड़ सकते हैं। यह सीमांकक और स्ट्रिंग का एक रेगेक्स लेता है जिसे हमें विभाजित करने की आवश्यकता होती है। उदाहरण के लिए: a='Beautiful, is; better*than\nugly' import re print(re.split('; |, |\*|\n',a)) हमें