इलियाड डेटासेट से टोकन वाले शब्दों को पायथन का उपयोग करके पूर्णांक में बदलने के लिए Tensorflow का उपयोग कैसे किया जा सकता है?

Tensorflow एक मशीन लर्निंग फ्रेमवर्क है जो Google द्वारा प्रदान किया जाता है। यह एक ओपन-सोर्स फ्रेमवर्क है जिसका उपयोग पायथन के संयोजन में एल्गोरिदम, गहन शिक्षण अनुप्रयोगों और बहुत कुछ को लागू करने के लिए किया जाता है। इसका उपयोग अनुसंधान और उत्पादन उद्देश्यों के लिए किया जाता है।

कोड की निम्न पंक्ति का उपयोग करके विंडोज़ पर 'टेंसरफ़्लो' पैकेज स्थापित किया जा सकता है -

पाइप इंस्टॉल टेंसरफ़्लो

Tensor एक डेटा संरचना है जिसका उपयोग TensorFlow में किया जाता है। यह प्रवाह आरेख में किनारों को जोड़ने में मदद करता है। इस प्रवाह आरेख को 'डेटा प्रवाह ग्राफ' के रूप में जाना जाता है। टेंसर और कुछ नहीं बल्कि एक बहुआयामी सरणी या एक सूची है।

उन्हें तीन मुख्य विशेषताओं का उपयोग करके पहचाना जा सकता है -

रैंक - यह टेंसर की डाइमेंशन के बारे में बताता है। इसे टेंसर के क्रम या परिभाषित किए गए टेंसर में आयामों की संख्या के रूप में समझा जा सकता है।
टाइप करें - यह टेंसर के तत्वों से जुड़े डेटा प्रकार के बारे में बताता है। यह एक आयामी, दो आयामी या n-आयामी टेंसर हो सकता है।
आकार - यह पंक्तियों और स्तंभों की एक साथ संख्या है।

हम इलियड के डेटासेट का उपयोग करेंगे, जिसमें विलियम काउपर, एडवर्ड (डर्बी के अर्ल) और सैमुअल बटलर के तीन अनुवाद कार्यों का टेक्स्ट डेटा शामिल है। जब पाठ की एक पंक्ति दी जाती है तो मॉडल को अनुवादक की पहचान करने के लिए प्रशिक्षित किया जाता है। उपयोग की गई टेक्स्ट फ़ाइलें प्रीप्रोसेसिंग कर रही हैं। इसमें दस्तावेज़ शीर्षलेख और पाद लेख, पंक्ति संख्या और अध्याय शीर्षक निकालना शामिल है।

हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है।

उदाहरण

निम्नलिखित कोड स्निपेट है -

की =vocabvalues =रेंज (2, लेन (वोकैब) + 2) # रिजर्व 0 पैडिंग के लिए, 1 ओओवीप्रिंट के लिए ("पूर्णांक के लिए टोकन मैप करें") init =tf.lookup.KeyValueTensorInitializer (कुंजी, मान, key_dtype=tf.string, value_dtype=tf.int64)num_oov_buckets =1vocab_table =tf.lookup.StaticVocabularyTable(init, num_oov_buckets)print ("एक फ़ंक्शन को टोकननाइज़र और लुकअप टेबल का उपयोग करके डेटासेट को मानकीकृत, टोकननाइज़ और वेक्टराइज़ करने के लिए परिभाषित किया गया है") प्रीप्रोसेस_टेक्स्ट (टेक्स्ट) को परिभाषित करें , लेबल):मानकीकृत =tf_text.case_fold_utf8 (पाठ) टोकनयुक्त =टोकननाइज़र।

कोड क्रेडिट - https://www.tensorflow.org/tutorials/load_data/text

आउटपुट

टोकन को पूर्णांक में मैप करेंएक फ़ंक्शन को टोकननाइज़र और लुकअप टेबल का उपयोग करके डेटासेट को मानकीकृत, टोकननाइज़ और वेक्टराइज़ करने के लिए परिभाषित किया गया है

स्पष्टीकरण

शब्दावली सेट का उपयोग स्टेटिक शब्दावली तालिका बनाने के लिए किया जाता है।
टोकन [2, vocab_size + 2] की सीमा के भीतर पूर्णांकों में मैप किए जाते हैं।
संख्या 0 का उपयोग पैडिंग को इंगित करने के लिए किया जाता है और 1 का उपयोग आउट-ऑफ-वोकैबुलरी (OOV) टोकन को इंगित करने के लिए किया जाता है।