Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

Tensorflow का उपयोग इलियड डेटासेट को पायथन में प्रशिक्षण और परीक्षण डेटा में विभाजित करने के लिए कैसे किया जा सकता है?

Tensorflow एक मशीन लर्निंग फ्रेमवर्क है जो Google द्वारा प्रदान किया जाता है। यह एक ओपन-सोर्स फ्रेमवर्क है जिसका उपयोग पायथन के संयोजन में एल्गोरिदम, गहन शिक्षण अनुप्रयोगों और बहुत कुछ को लागू करने के लिए किया जाता है। इसका उपयोग अनुसंधान और उत्पादन उद्देश्यों के लिए किया जाता है।

कोड की निम्न पंक्ति का उपयोग करके विंडोज़ पर 'टेंसरफ़्लो' पैकेज स्थापित किया जा सकता है -

pip install tensorflow

Tensor एक डेटा संरचना है जिसका उपयोग TensorFlow में किया जाता है। यह प्रवाह आरेख में किनारों को जोड़ने में मदद करता है। इस प्रवाह आरेख को 'डेटा प्रवाह ग्राफ' के रूप में जाना जाता है। टेंसर और कुछ नहीं बल्कि एक बहुआयामी सरणी या एक सूची है।

उन्हें तीन मुख्य विशेषताओं का उपयोग करके पहचाना जा सकता है -

  • रैंक - यह टेंसर की डाइमेंशन के बारे में बताता है। इसे टेंसर के क्रम या परिभाषित किए गए टेंसर में आयामों की संख्या के रूप में समझा जा सकता है।

  • टाइप करें - यह टेंसर के तत्वों से जुड़े डेटा प्रकार के बारे में बताता है। यह एक आयामी, दो आयामी या n-आयामी टेंसर हो सकता है।

  • आकार - यह पंक्तियों और स्तंभों की एक साथ संख्या है।

हम इलियड के डेटासेट का उपयोग करेंगे, जिसमें विलियम काउपर, एडवर्ड (डर्बी के अर्ल) और सैमुअल बटलर के तीन अनुवाद कार्यों का टेक्स्ट डेटा शामिल है। जब पाठ की एक पंक्ति दी जाती है तो मॉडल को अनुवादक की पहचान करने के लिए प्रशिक्षित किया जाता है। उपयोग की गई टेक्स्ट फ़ाइलें प्रीप्रोसेसिंग कर रही हैं। इसमें दस्तावेज़ शीर्षलेख और पाद लेख, पंक्ति संख्या और अध्याय शीर्षक निकालना शामिल है।

हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है।

उदाहरण

निम्नलिखित कोड स्निपेट है -

train_data = all_encoded_data.skip(VALIDATION_SIZE).shuffle(BUFFER_SIZE)
validation_data = all_encoded_data.take(VALIDATION_SIZE)

train_data = train_data.padded_batch(BATCH_SIZE)
validation_data = validation_data.padded_batch(BATCH_SIZE)

sample_text, sample_labels = next(iter(validation_data))
print("The text batch shape is : ", sample_text.shape)
print("The label batch shape is : ", sample_labels.shape)
print("A text example is : ", sample_text[5])
print("A label example is: ", sample_labels[5])

कोड क्रेडिट - https://www.tensorflow.org/tutorials/load_data/text

आउटपुट

The text batch shape is : (64, 18)
The label batch shape is : (64,)
A text example is : tf.Tensor(
[ 20 391 2 11 144 787 2 3498 16 49 2 0 0 0
   0 0 0 0], shape=(18,), dtype=int64)
A label example is: tf.Tensor(1, shape=(), dtype=int64)

स्पष्टीकरण

  • Keras TextVectorization लेयर का उपयोग वेक्टरकृत डेटा को समूह/बैच करने और पैडिंग प्रदान करने के लिए किया जाता है।

  • पैडिंग की आवश्यकता है क्योंकि बैच के अंदर के उदाहरण समान आकार और आकार के होने चाहिए, लेकिन डेटासेट में उदाहरण समान आकार के नहीं हो सकते हैं।

  • पाठ की प्रत्येक पंक्ति में शब्दों की संख्या भिन्न हो सकती है।

  • 'tf.data.Dataset' पद्धति डेटासेट को विभाजित करने और पैड-बैचिंग करने में मदद करती है।

  • 'Validation_data' और 'train_data' बैच डेटा के संग्रह हैं।

  • प्रत्येक बैच सरणियों के रूप में प्रतिनिधित्व (कई उदाहरण, कई लेबल) की एक जोड़ी है।


  1. पायथन का उपयोग करके डेटा की कल्पना करने के लिए Tensorflow और पूर्व-प्रशिक्षित मॉडल का उपयोग कैसे किया जा सकता है?

    Tensorflow और पूर्व-प्रशिक्षित मॉडल का उपयोग matplotlib लाइब्रेरी का उपयोग करके डेटा की कल्पना करने के लिए किया जा सकता है। कंसोल पर डेटा को प्लॉट करने के लिए प्लॉट पद्धति का उपयोग किया जाता है। और पढ़ें: TensorFlow क्या है और Keras कैसे तंत्रिका नेटवर्क बनाने के लिए TensorFlow के साथ काम करता है?

  1. पायथन का उपयोग करके डेटा को मानकीकृत करने के लिए Tensorflow का उपयोग कैसे किया जा सकता है?

    हम फूलों के डेटासेट का उपयोग करेंगे, जिसमें कई हजारों फूलों के चित्र होंगे। इसमें 5 उप-निर्देशिकाएँ हैं, और प्रत्येक वर्ग के लिए एक उप-निर्देशिका है। एक बार get_file पद्धति का उपयोग करके फूल डेटासेट डाउनलोड हो जाने के बाद, इसके साथ काम करने के लिए इसे पर्यावरण में लोड किया जाएगा। मॉडल में सामान्यीक

  1. पायथन का उपयोग करके डेटा की कल्पना करने के लिए Tensorflow का उपयोग कैसे किया जा सकता है?

    मान लें कि हमारे पास फूल डेटासेट है। फूल डेटासेट को Google API का उपयोग करके डाउनलोड किया जा सकता है जो मूल रूप से फूल डेटासेट से लिंक होता है। एपीआई को पैरामीटर के रूप में पास करने के लिए get_file विधि का उपयोग किया जा सकता है। एक बार ऐसा करने के बाद, डेटा पर्यावरण में डाउनलोड हो जाता है। इसे मैटप