Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

Tensorflow और Python के संबंध में अनसाइड स्क्रिप्ट क्या हैं?

प्रत्येक यूनिकोड कोड बिंदु कोड बिंदुओं के एकल संग्रह से संबंधित होता है जिसे स्क्रिप्ट के रूप में जाना जाता है। एक चरित्र की लिपि उस भाषा को निर्धारित करती है जिससे चरित्र संबंधित होगा। TensorFlow 'strings.unicode_script' पद्धति के साथ आता है जो यह पता लगाने में मदद करता है कि किसी दिए गए कोडपॉइंट द्वारा कौन सी स्क्रिप्ट का उपयोग किया जाएगा। स्क्रिप्ट कोड int32 मान हैं जिन्हें यूनिकोड (ICU) UScriptCode मानों के लिए अंतर्राष्ट्रीय घटकों में मैप किया जा सकता है

और पढ़ें: TensorFlow क्या है और Keras कैसे तंत्रिका नेटवर्क बनाने के लिए TensorFlow के साथ काम करता है?

हम यह नहीं देखेंगे कि पायथन का उपयोग करके यूनिकोड स्ट्रिंग्स का प्रतिनिधित्व कैसे करें, और यूनिकोड समकक्षों का उपयोग करने वालों में हेरफेर करें। सबसे पहले, यूनिकोड स्ट्रिंग्स को मानक स्ट्रिंग ऑप्स के यूनिकोड समकक्षों की सहायता से स्क्रिप्ट डिटेक्शन के आधार पर टोकन में अलग करें।

हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है।

print("The below represent '芸' and 'Б' respectively")
uscript = tf.strings.unicode_script([33464, 1041])  
print(uscript.numpy())   # [17, 8] == [USCRIPT_HAN, USCRIPT_CYRILLIC]
print("Applying to multidimensional strings")
print(tf.strings.unicode_script(batch_chars_ragged))

कोड क्रेडिट:https://www.tensorflow.org/tutorials/load_data/unicode

आउटपुट

The below represent '芸' and 'Б' respectively
[17   8]
Applying to multidimensional strings
<tf.RaggedTensor [[25, 25, 25, 25, 25], [25, 25, 25, 25, 0, 25, 25, 0, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 25], [25, 25, 25, 25, 25, 25, 25, 25, 25], [0]]>

स्पष्टीकरण

  • हर यूनिकोड कोड बिंदु कोडपॉइंट के एकल संग्रह से संबंधित होता है जिसे स्क्रिप्ट के रूप में जाना जाता है।
  • एक चरित्र की लिपि यह निर्धारित करने में मदद करती है कि चरित्र किस भाषा से संबंधित हो सकता है।
  • TensorFlow यह पता लगाने के लिए tf.strings.unicode_script ऑपरेशन प्रदान करता है कि दिए गए कोडपॉइंट किस स्क्रिप्ट का उपयोग करेगा।
  • स्क्रिप्ट कोड int32 मान हैं जो यूनिकोड (ICU) UScriptCode मानों के लिए अंतर्राष्ट्रीय घटकों को मैप करते हैं।
  • tf.strings.unicode_script ऑपरेशन को बहुआयामी tf.Tensors या tf.RaggedTensors of codepoints पर भी लागू किया जा सकता है।

  1. पायथन में आरक्षित शब्द क्या हैं?

    निम्न सूची पायथन कीवर्ड दिखाती है। ये आरक्षित शब्द हैं और आप इन्हें स्थिर या परिवर्तनशील या किसी अन्य पहचानकर्ता नाम के रूप में उपयोग नहीं कर सकते हैं। सभी पायथन कीवर्ड में केवल लोअरकेस अक्षर होते हैं। और निष्पादन नहीं जोर दें आखिरकार या ब्रेक के लिए पास वर्ग से प्रिंट जारी रखें वैश्विक उठाएं d

  1. पायथन पहचानकर्ता क्या हैं?

    पायथन आइडेंटिफ़ायर एक ऐसा नाम है जिसका उपयोग किसी वेरिएबल, फंक्शन, क्लास, मॉड्यूल या अन्य ऑब्जेक्ट की पहचान करने के लिए किया जाता है। एक पहचानकर्ता अक्षर A से Z या a से z या अंडरस्कोर (_) से शुरू होता है और उसके बाद शून्य या अधिक अक्षर, अंडरस्कोर और अंक (0 से 9) होते हैं। पायथन पहचानकर्ताओं के भीतर

  1. पायथन और आर के अलावा डेटा साइंस को सपोर्ट करने के लिए कौन से टूल्स हैं?

    इस लेख में, हम पायथन और आर के अलावा डेटा साइंस को सपोर्ट करने वाले टूल्स के बारे में जानेंगे? यहां हम पांच टूल देखेंगे जो डेटा साइंस की अवधारणा को लागू करने में मदद करते हैं। अपाचे Hadoop जावा आधारित मुफ्त सॉफ्टवेयर बड़ी भंडारण क्षमता डेटा की बंटवारे की क्षमता नोस्क्ल अधिक संरचित अभिविन्यास बे