Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

इलियाड डेटासेट से टोकन वाले शब्दों को पायथन का उपयोग करके पूर्णांक में बदलने के लिए Tensorflow का उपयोग कैसे किया जा सकता है?

Tensorflow एक मशीन लर्निंग फ्रेमवर्क है जो Google द्वारा प्रदान किया जाता है। यह एक ओपन-सोर्स फ्रेमवर्क है जिसका उपयोग पायथन के संयोजन में एल्गोरिदम, गहन शिक्षण अनुप्रयोगों और बहुत कुछ को लागू करने के लिए किया जाता है। इसका उपयोग अनुसंधान और उत्पादन उद्देश्यों के लिए किया जाता है।

कोड की निम्न पंक्ति का उपयोग करके विंडोज़ पर 'टेंसरफ़्लो' पैकेज स्थापित किया जा सकता है -

पाइप इंस्टॉल टेंसरफ़्लो

Tensor एक डेटा संरचना है जिसका उपयोग TensorFlow में किया जाता है। यह प्रवाह आरेख में किनारों को जोड़ने में मदद करता है। इस प्रवाह आरेख को 'डेटा प्रवाह ग्राफ' के रूप में जाना जाता है। टेंसर और कुछ नहीं बल्कि एक बहुआयामी सरणी या एक सूची है।

उन्हें तीन मुख्य विशेषताओं का उपयोग करके पहचाना जा सकता है -

  • रैंक - यह टेंसर की डाइमेंशन के बारे में बताता है। इसे टेंसर के क्रम या परिभाषित किए गए टेंसर में आयामों की संख्या के रूप में समझा जा सकता है।

  • टाइप करें - यह टेंसर के तत्वों से जुड़े डेटा प्रकार के बारे में बताता है। यह एक आयामी, दो आयामी या n-आयामी टेंसर हो सकता है।

  • आकार - यह पंक्तियों और स्तंभों की एक साथ संख्या है।

हम इलियड के डेटासेट का उपयोग करेंगे, जिसमें विलियम काउपर, एडवर्ड (डर्बी के अर्ल) और सैमुअल बटलर के तीन अनुवाद कार्यों का टेक्स्ट डेटा शामिल है। जब पाठ की एक पंक्ति दी जाती है तो मॉडल को अनुवादक की पहचान करने के लिए प्रशिक्षित किया जाता है। उपयोग की गई टेक्स्ट फ़ाइलें प्रीप्रोसेसिंग कर रही हैं। इसमें दस्तावेज़ शीर्षलेख और पाद लेख, पंक्ति संख्या और अध्याय शीर्षक निकालना शामिल है।

हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है।

उदाहरण

निम्नलिखित कोड स्निपेट है -

की =vocabvalues ​​=रेंज (2, लेन (वोकैब) + 2) # रिजर्व 0 पैडिंग के लिए, 1 ओओवीप्रिंट के लिए ("पूर्णांक के लिए टोकन मैप करें") init =tf.lookup.KeyValueTensorInitializer (कुंजी, मान, key_dtype=tf.string, value_dtype=tf.int64)num_oov_buckets =1vocab_table =tf.lookup.StaticVocabularyTable(init, num_oov_buckets)print ("एक फ़ंक्शन को टोकननाइज़र और लुकअप टेबल का उपयोग करके डेटासेट को मानकीकृत, टोकननाइज़ और वेक्टराइज़ करने के लिए परिभाषित किया गया है") प्रीप्रोसेस_टेक्स्ट (टेक्स्ट) को परिभाषित करें , लेबल):मानकीकृत =tf_text.case_fold_utf8 (पाठ) टोकनयुक्त =टोकननाइज़र। 

कोड क्रेडिट - https://www.tensorflow.org/tutorials/load_data/text

आउटपुट

टोकन को पूर्णांक में मैप करेंएक फ़ंक्शन को टोकननाइज़र और लुकअप टेबल का उपयोग करके डेटासेट को मानकीकृत, टोकननाइज़ और वेक्टराइज़ करने के लिए परिभाषित किया गया है

स्पष्टीकरण

  • शब्दावली सेट का उपयोग स्टेटिक शब्दावली तालिका बनाने के लिए किया जाता है।

  • टोकन [2, vocab_size + 2] की सीमा के भीतर पूर्णांकों में मैप किए जाते हैं।

  • संख्या 0 का उपयोग पैडिंग को इंगित करने के लिए किया जाता है और 1 का उपयोग आउट-ऑफ-वोकैबुलरी (OOV) टोकन को इंगित करने के लिए किया जाता है।


  1. पायथन का उपयोग करके डेटा की कल्पना करने के लिए Tensorflow का उपयोग कैसे किया जा सकता है?

    मान लें कि हमारे पास फूल डेटासेट है। फूल डेटासेट को Google API का उपयोग करके डाउनलोड किया जा सकता है जो मूल रूप से फूल डेटासेट से लिंक होता है। एपीआई को पैरामीटर के रूप में पास करने के लिए get_file विधि का उपयोग किया जा सकता है। एक बार ऐसा करने के बाद, डेटा पर्यावरण में डाउनलोड हो जाता है। इसे मैटप

  1. पायथन का उपयोग करके फूल डेटासेट की कल्पना करने के लिए Tensorflow का उपयोग कैसे किया जा सकता है?

    फूल डेटासेट को मैटप्लोटलिब लाइब्रेरी की मदद से देखा जा सकता है। कंसोल पर छवि प्रदर्शित करने के लिए इमशो विधि का उपयोग किया जाता है। संपूर्ण डेटासेट को पुनरावृत्त किया जाता है, और केवल पहली कुछ छवियां प्रदर्शित होती हैं। और पढ़ें: TensorFlow क्या है और Keras कैसे तंत्रिका नेटवर्क बनाने के लिए Tensor

  1. पायथन का उपयोग करके सहेजे गए मॉडल से एक नए मॉडल को फिर से लोड करने के लिए केरस का उपयोग कैसे किया जा सकता है?

    Tensorflow एक मशीन लर्निंग फ्रेमवर्क है जो Google द्वारा प्रदान किया जाता है। यह एक ओपन-सोर्स फ्रेमवर्क है जिसका उपयोग एल्गोरिदम, गहन शिक्षण अनुप्रयोगों और बहुत कुछ को लागू करने के लिए पायथन के साथ संयोजन में किया जाता है। इसका उपयोग अनुसंधान और उत्पादन उद्देश्यों के लिए किया जाता है। कोड की निम्न