पायथन का उपयोग करके स्टैक ओवरफ्लो प्रश्नों के साथ डेटासेट तैयार करने के लिए Tensorflow का उपयोग कैसे किया जा सकता है?

Tensorflow एक मशीन लर्निंग फ्रेमवर्क है जो Google द्वारा प्रदान किया जाता है। यह एक ओपन-सोर्स फ्रेमवर्क है जिसका उपयोग पायथन के संयोजन में एल्गोरिदम, गहन शिक्षण अनुप्रयोगों और बहुत कुछ को लागू करने के लिए किया जाता है। इसका उपयोग अनुसंधान और उत्पादन उद्देश्यों के लिए किया जाता है।

कोड की निम्न पंक्ति का उपयोग करके विंडोज़ पर 'टेंसरफ़्लो' पैकेज स्थापित किया जा सकता है -

पाइप इंस्टॉल टेंसरफ़्लो

Tensor एक डेटा संरचना है जिसका उपयोग TensorFlow में किया जाता है। यह प्रवाह आरेख में किनारों को जोड़ने में मदद करता है। इस प्रवाह आरेख को 'डेटा प्रवाह ग्राफ' के रूप में जाना जाता है। Tensors और कुछ नहीं बल्कि बहुआयामी सरणी या एक सूची है। हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है। निम्नलिखित कोड स्निपेट है -

उदाहरण

VOCAB_SIZE =10000प्रिंट ("टेक्स्ट का प्रीप्रोसेसिंग शुरू होता है") बाइनरी_वेक्टराइज़_लेयर =टेक्स्ट वेक्टराइज़ेशन (max_tokens =VOCAB_SIZE, आउटपुट_मोड ='बाइनरी') MAX_SEQUENCE_LENGTH =250int_vectorize_layer =TextVectorization(max_tokens_,TH_QUENCE_'LENG) आउटपुट /पूर्व>

कोड क्रेडिट - https://www.tensorflow.org/tutorials/load_data/text

आउटपुट

टेक्स्ट का प्रीप्रोसेसिंग शुरू होता है

स्पष्टीकरण

डेटा को 'TextVectorization' परत का उपयोग करके मानकीकृत, टोकनयुक्त और वेक्टरकृत किया जाता है।
मानकीकरण में पाठ को पूर्व-संसाधित करना और विराम चिह्न और HTML तत्वों को हटाना शामिल है।
टोकनाइजेशन में व्हाइटस्पेस को विभाजित करके वाक्यों को शब्दों में विभाजित करना शामिल है।
वेक्टराइजेशन में टोकन को संख्याओं में परिवर्तित करना शामिल है ताकि इसे खिलाए जाने पर इसे तंत्रिका नेटवर्क द्वारा समझा जा सके।
बाइनरी मॉडल मॉडल बनाने के लिए शब्दों के बैग मॉडल का उपयोग करता है।