Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

वाक्य में प्रत्येक शब्द का कोड बिंदु प्राप्त करने के लिए Tensorflow और Python का उपयोग कैसे किया जा सकता है?

वाक्य में प्रत्येक शब्द का कूट बिन्दु प्राप्त करने के लिए सबसे पहले यह देखा जाता है कि वाक्य शब्द का प्रारंभ है या नहीं। फिर, यह देखने के लिए जाँच की जाती है कि क्या सभी वाक्यों के वर्णों की चपटी सूची में वर्ण का सूचकांक शब्द के विशिष्ट सूचकांक से शुरू होता है। एक बार यह सत्यापित हो जाने के बाद, प्रत्येक शब्द में प्रत्येक वर्ण का कोड बिंदु नीचे दी गई विधि का उपयोग करके प्राप्त किया जाता है।

स्क्रिप्ट पहचानकर्ता शब्द सीमाओं और उस स्थान को निर्धारित करने में मदद करते हैं जहां जोड़ा जाना चाहिए। शब्द सीमा को एक वाक्य की शुरुआत में जोड़ा जाता है और प्रत्येक वर्ण के लिए जिसकी लिपि उसके पिछले वर्ण से भिन्न होती है। RaggedTensor बनाने के लिए स्टार्ट ऑफ़सेट का उपयोग किया जा सकता है। इस रैग्ड टेंसर में सभी बैचों के शब्दों की सूची होगी

और पढ़ें: TensorFlow क्या है और Keras कैसे तंत्रिका नेटवर्क बनाने के लिए TensorFlow के साथ काम करता है?

आइए समझें कि पायथन का उपयोग करके यूनिकोड स्ट्रिंग्स का प्रतिनिधित्व कैसे करें, और यूनिकोड समकक्षों का उपयोग करने वालों में हेरफेर करें। सबसे पहले, हम यूनिकोड स्ट्रिंग्स को मानक स्ट्रिंग ऑप्स के यूनिकोड समकक्षों की सहायता से स्क्रिप्ट डिटेक्शन के आधार पर टोकन में अलग करते हैं।

हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है।

print("Check if sentence is the start of the word")
sentence_char_starts_word = tf.concat(
   [tf.fill([sentence_char_script.nrows(), 1], True),
    tf.not_equal(sentence_char_script[:, 1:], sentence_char_script[:, :-1])],
   axis=1)
print("Check if index of character starts from specific index of word in flattened list of characters from all sentences")
word_starts = tf.squeeze(tf.where(sentence_char_starts_word.values), axis=1)
print(word_starts)
print("Get the code point of every character in every word")
word_char_codepoint = tf.RaggedTensor.from_row_starts(
   values=sentence_char_codepoint.values,
   row_starts=word_starts)
print(word_char_codepoint)

कोड क्रेडिट:https://www.tensorflow.org/tutorials/load_data/unicode

आउटपुट

Check if sentence is the start of the word
Check if index of character starts from specific index of word in flattened list of characters from all sentences
tf.Tensor([ 0   5   7 12 13 15], shape=(6,), dtype=int64)
Get the code point of every character in every word
<tf.RaggedTensor [[72, 101, 108, 108, 111], [44, 32], [116, 104, 101, 114, 101], [46], [19990, 30028], [12371, 12435, 12395, 12385, 12399]]>

स्पष्टीकरण

  • स्क्रिप्ट पहचानकर्ता यह निर्धारित करने में सहायता करते हैं कि शब्द सीमाओं को कहाँ जोड़ा जाना चाहिए।
  • प्रत्येक वाक्य की शुरुआत में और प्रत्येक वर्ण के लिए एक शब्द सीमा जोड़ी जाती है जिसकी लिपि उसके पिछले वर्ण से भिन्न होती है।
  • अगला, इन स्टार्ट ऑफ़सेट्स का उपयोग रैग्डटेन्सर बनाने के लिए किया जा सकता है।
  • इस रैग्ड टेंसर में सभी बैचों के शब्दों की सूची है

  1. पायथन का उपयोग करके डेटा की कल्पना करने के लिए Tensorflow और पूर्व-प्रशिक्षित मॉडल का उपयोग कैसे किया जा सकता है?

    Tensorflow और पूर्व-प्रशिक्षित मॉडल का उपयोग matplotlib लाइब्रेरी का उपयोग करके डेटा की कल्पना करने के लिए किया जा सकता है। कंसोल पर डेटा को प्लॉट करने के लिए प्लॉट पद्धति का उपयोग किया जाता है। और पढ़ें: TensorFlow क्या है और Keras कैसे तंत्रिका नेटवर्क बनाने के लिए TensorFlow के साथ काम करता है?

  1. पायथन का उपयोग करके मॉडल को प्रशिक्षित करने के लिए Tensorflow का उपयोग कैसे किया जा सकता है?

    मॉडल को Tensorflow में ट्रेन पद्धति का उपयोग करके प्रशिक्षित किया जा सकता है, जहां युगों (मॉडल को फिट करने के लिए डेटा को प्रशिक्षित करने की संख्या) और प्रशिक्षण डेटा निर्दिष्ट किया जाता है। और पढ़ें: TensorFlow क्या है और Keras कैसे तंत्रिका नेटवर्क बनाने के लिए TensorFlow के साथ काम करता है? हम

  1. केरस का उपयोग कॉलबैक बनाने और पायथन का उपयोग करके वज़न बचाने के लिए कैसे किया जा सकता है?

    Tensorflow एक मशीन लर्निंग फ्रेमवर्क है जो Google द्वारा प्रदान किया जाता है। यह एक ओपन-सोर्स फ्रेमवर्क है जिसका उपयोग एल्गोरिदम, गहन शिक्षण अनुप्रयोगों और बहुत कुछ को लागू करने के लिए पायथन के साथ संयोजन में किया जाता है। इसका उपयोग अनुसंधान और उत्पादन उद्देश्यों के लिए किया जाता है। इसमें अनुकूलन