Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

Tensorflow का उपयोग रैग्ड टेंसर के शब्द कोड बिंदु को वाक्यों में वापस करने के लिए कैसे किया जा सकता है?

रैग्ड टेंसर के शब्द कोड बिंदु को निम्न विधि में विभाजित किया जा सकता है:सेगमेंटेशन टेक्स्ट को शब्द-जैसी इकाइयों में विभाजित करने के कार्य को संदर्भित करता है। इसका उपयोग उन मामलों में किया जाता है जहां शब्दों को अलग करने के लिए स्पेस वर्णों का उपयोग किया जाता है, लेकिन चीनी और जापानी जैसी कुछ भाषाएं रिक्त स्थान का उपयोग नहीं करती हैं। जर्मन जैसी कुछ भाषाओं में लंबे यौगिक होते हैं जिन्हें उनके अर्थ का विश्लेषण करने के लिए विभाजित करने की आवश्यकता होती है।

शब्द का कोड बिंदु वाक्य में वापस खंडित है। अगला कदम यह जांचना है कि किसी शब्द में किसी वर्ण के लिए कोड बिंदु वाक्य में मौजूद है या नहीं। यदि यह मौजूद है, तो एक रैग्ड टेंसर बनाया जाता है, और वाक्य को मानक एन्कोडिंग में वापस एन्कोड किया जाता है।

और पढ़ें: TensorFlow क्या है और Keras कैसे तंत्रिका नेटवर्क बनाने के लिए TensorFlow के साथ काम करता है?

आइए समझें कि पायथन का उपयोग करके यूनिकोड स्ट्रिंग्स का प्रतिनिधित्व कैसे करें, और यूनिकोड समकक्षों का उपयोग करने वालों में हेरफेर करें। सबसे पहले, हम यूनिकोड स्ट्रिंग्स को मानक स्ट्रिंग ऑप्स के यूनिकोड समकक्षों की सहायता से स्क्रिप्ट डिटेक्शन के आधार पर टोकन में अलग करते हैं।

हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है।

print("Segment the word code points back to sentences")
print("Check if code point for a character in a word is present in the sentence")
sentence_word_char_codepoint = tf.RaggedTensor.from_row_lengths(
   values=word_char_codepoint,
   row_lengths=sentence_num_words)
print(sentence_word_char_codepoint)
print("Encoding it back to UTF-8")
tf.strings.unicode_encode(sentence_word_char_codepoint, 'UTF-8').to_list()

कोड क्रेडिट:https://www.tensorflow.org/tutorials/load_data/unicode

आउटपुट

Segment the word code points back to sentences
Check if code point for a character in a word is present in the sentence
<tf.RaggedTensor [[[72, 101, 108, 108, 111], [44, 32], [116, 104, 101, 114, 101], [46]], [[19990, 30028], [12371, 12435, 12395, 12385, 12399]]]>
Encoding it back to UTF-8
[[b'Hello', b', ', b'there', b'.'],
[b'\xe4\xb8\x96\xe7\x95\x8c',
   b'\xe3\x81\x93\xe3\x82\x93\xe3\x81\xab\xe3\x81\xa1\xe3\x81\xaf']]

स्पष्टीकरण

  • कोड बिंदु वाक्यों में विभाजित हैं।
  • यह निर्धारित किया जाता है कि किसी वर्ण के लिए कोड बिंदु वाक्य में मौजूद है या नहीं।
  • डिकोड किया गया डेटा वापस UTF-8 एन्कोडिंग में एन्कोड किया गया है।

  1. पायथन का उपयोग करके दो मैट्रिक्स को गुणा करने के लिए Tensorflow का उपयोग कैसे किया जा सकता है?

    Tensorflow एक मशीन लर्निंग फ्रेमवर्क है जो Google द्वारा प्रदान किया जाता है। यह एक ओपन-सोर्स फ्रेमवर्क है जिसका उपयोग एल्गोरिदम, गहन शिक्षण अनुप्रयोगों और बहुत कुछ को लागू करने के लिए पायथन के साथ संयोजन में किया जाता है। इसका उपयोग अनुसंधान और उत्पादन उद्देश्यों के लिए किया जाता है। इसमें अनुकूलन

  1. पायथन का उपयोग करके दो मैट्रिक्स जोड़ने के लिए Tensorflow का उपयोग कैसे किया जा सकता है?

    Tensorflow एक मशीन लर्निंग फ्रेमवर्क है जो Google द्वारा प्रदान किया जाता है। यह एक ओपन-सोर्स फ्रेमवर्क है जिसका उपयोग एल्गोरिदम, गहन शिक्षण अनुप्रयोगों और बहुत कुछ को लागू करने के लिए पायथन के साथ संयोजन में किया जाता है। इसका उपयोग अनुसंधान और उत्पादन उद्देश्यों के लिए किया जाता है। इसमें अनुकूलन

  1. TensorFlow का उपयोग टेंसर बनाने और पायथन का उपयोग करके एक संदेश प्रदर्शित करने के लिए कैसे किया जा सकता है?

    Tensorflow एक मशीन लर्निंग फ्रेमवर्क है जो Google द्वारा प्रदान किया जाता है। यह एक ओपन-सोर्स फ्रेमवर्क है जिसका उपयोग एल्गोरिदम, गहन शिक्षण अनुप्रयोगों और बहुत कुछ को लागू करने के लिए पायथन के साथ संयोजन में किया जाता है। इसका उपयोग अनुसंधान और उत्पादन उद्देश्यों के लिए किया जाता है। इसमें अनुकूलन