Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

पायथन का उपयोग करके Tensorflow में यूनिकोड संचालन कैसे किया जा सकता है?

यूनिकोड संचालन पहले स्ट्रिंग्स की लंबाई प्राप्त करके और इसे अन्य मानों पर सेट करके किया जा सकता है (डिफ़ॉल्ट मान 'बाइट' है)। कोड बिंदुओं के वेक्टर को एन्कोडेड स्ट्रिंग स्केलर में बदलने के लिए 'एन्कोड' विधि का उपयोग किया जाता है। यह प्रत्येक एन्कोडेड स्ट्रिंग में यूनिकोड कोड बिंदुओं को निर्धारित करने के लिए किया जाता है।

और पढ़ें: TensorFlow क्या है और Keras कैसे तंत्रिका नेटवर्क बनाने के लिए TensorFlow के साथ काम करता है?

मॉडल जो प्राकृतिक भाषा को संसाधित करते हैं वे विभिन्न भाषाओं को संभालते हैं जिनमें अलग-अलग वर्ण सेट होते हैं। यूनिकोड को मानक एन्कोडिंग प्रणाली के रूप में माना जाता है जिसका उपयोग लगभग सभी भाषाओं के चरित्र का प्रतिनिधित्व करने के लिए किया जाता है। प्रत्येक वर्ण को एक अद्वितीय पूर्णांक कोड बिंदु की सहायता से एन्कोड किया गया है जो 0 और 0x10FFFF के बीच है। यूनिकोड स्ट्रिंग शून्य या अधिक कोड मानों का एक क्रम है।

आइए समझें कि पायथन का उपयोग करके यूनिकोड स्ट्रिंग्स का प्रतिनिधित्व कैसे करें, और यूनिकोड समकक्षों का उपयोग करने वालों में हेरफेर करें। सबसे पहले, हम यूनिकोड स्ट्रिंग्स को मानक स्ट्रिंग ऑप्स के यूनिकोड समकक्षों की सहायता से स्क्रिप्ट डिटेक्शन के आधार पर टोकन में अलग करते हैं।

हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है।

print("The final character takes about 4 bytes in UTF-8 encoding")
thanks = u'Hello 😊'.encode('UTF-8')
num_bytes = tf.strings.length(thanks).numpy()
num_chars = tf.strings.length(thanks, unit='UTF8_CHAR').numpy()
print('{} bytes; {} UTF-8 characters'.format(num_bytes, num_chars))

कोड क्रेडिट:https://www.tensorflow.org/tutorials/load_data/unicode

आउटपुट

The final character takes about 4 bytes in UTF-8 encoding
10 bytes; 7 UTF-8 characters

स्पष्टीकरण

  • tf.strings.length ऑपरेशन में एक पैरामीटर इकाई होती है जो उस विधि को इंगित करती है जिसमें लंबाई की गणना करने की आवश्यकता होती है।
  • इकाई डिफ़ॉल्ट "BYTE" है, लेकिन इसे "UTF8_CHAR" या "UTF16_CHAR" जैसे अन्य मानों पर सेट किया जा सकता है।
  • यह प्रत्येक एन्कोडेड स्ट्रिंग में यूनिकोड कोडपॉइंट्स की संख्या को खोजने के लिए किया जाता है।

  1. TensorFlow पायथन का उपयोग करके एक रैखिक मॉडल को प्रशिक्षित करने के लिए कैसे उपयोग किया जा सकता है?

    Tensorflow एक मशीन लर्निंग फ्रेमवर्क है जो Google द्वारा प्रदान किया जाता है। यह एक ओपन-सोर्स फ्रेमवर्क है जिसका उपयोग एल्गोरिदम, गहन शिक्षण अनुप्रयोगों और बहुत कुछ को लागू करने के लिए पायथन के साथ संयोजन में किया जाता है। इसका उपयोग अनुसंधान और उत्पादन उद्देश्यों के लिए किया जाता है। कोड की निम्न

  1. पायथन का उपयोग करके Tensorflow में तत्व के अनुसार गुणन कैसे किया जा सकता है?

    Tensorflow एक मशीन लर्निंग फ्रेमवर्क है जो Google द्वारा प्रदान किया जाता है। यह एक ओपन-सोर्स फ्रेमवर्क है जिसका उपयोग एल्गोरिदम, गहन शिक्षण अनुप्रयोगों और बहुत कुछ को लागू करने के लिए पायथन के साथ संयोजन में किया जाता है। इसका उपयोग अनुसंधान और उत्पादन उद्देश्यों के लिए किया जाता है। इसमें अनुकूलन

  1. पायथन का उपयोग करके दो मैट्रिक्स को गुणा करने के लिए Tensorflow का उपयोग कैसे किया जा सकता है?

    Tensorflow एक मशीन लर्निंग फ्रेमवर्क है जो Google द्वारा प्रदान किया जाता है। यह एक ओपन-सोर्स फ्रेमवर्क है जिसका उपयोग एल्गोरिदम, गहन शिक्षण अनुप्रयोगों और बहुत कुछ को लागू करने के लिए पायथन के साथ संयोजन में किया जाता है। इसका उपयोग अनुसंधान और उत्पादन उद्देश्यों के लिए किया जाता है। इसमें अनुकूलन