पायथन का उपयोग करके इलियड डेटासेट को लोड करने के लिए Tensorflow का उपयोग कैसे किया जा सकता है?

Tensorflow एक मशीन लर्निंग फ्रेमवर्क है जो Google द्वारा प्रदान किया जाता है। यह एक ओपन-सोर्स फ्रेमवर्क है जिसका उपयोग पायथन के साथ एल्गोरिदम, डीप लर्निंग एप्लिकेशन और बहुत कुछ को लागू करने के लिए किया जाता है। इसका उपयोग अनुसंधान और उत्पादन उद्देश्यों के लिए किया जाता है।

Tensor एक डेटा संरचना है जिसका उपयोग TensorFlow में किया जाता है। यह प्रवाह आरेख में किनारों को जोड़ने में मदद करता है। इस प्रवाह आरेख को 'डेटा प्रवाह ग्राफ' के रूप में जाना जाता है। टेंसर और कुछ नहीं बल्कि एक बहुआयामी सरणी या एक सूची है।

उन्हें तीन मुख्य विशेषताओं का उपयोग करके पहचाना जा सकता है -

रैंक - यह टेंसर की डाइमेंशन के बारे में बताता है। इसे टेंसर के क्रम या परिभाषित किए गए टेंसर में आयामों की संख्या के रूप में समझा जा सकता है।
टाइप करें - यह टेंसर के तत्वों से जुड़े डेटा प्रकार के बारे में बताता है। यह एक आयामी, दो आयामी या n-आयामी टेंसर हो सकता है।
आकार - यह पंक्तियों और स्तंभों की एक साथ संख्या है।

हम इलियड के डेटासेट का उपयोग करेंगे, जिसमें विलियम काउपर, एडवर्ड (डर्बी के अर्ल) और सैमुअल बटलर के तीन अनुवाद कार्यों का टेक्स्ट डेटा शामिल है। जब पाठ की एक पंक्ति दी जाती है तो मॉडल को अनुवादक की पहचान करने के लिए प्रशिक्षित किया जाता है। उपयोग की गई टेक्स्ट फ़ाइलें प्रीप्रोसेसिंग कर रही हैं। इसमें दस्तावेज़ शीर्षलेख और पाद लेख, पंक्ति संख्याएं और अध्याय शीर्षक निकालना शामिल है।

हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है।

उदाहरण

निम्नलिखित कोड स्निपेट है -

def labeler(example, index):
   return example, tf.cast(index, tf.int64)
print(“An empty list has been created”)
labeled_data_sets = []
print(“Iterate through the file names and create a dataset from text file using ‘TextLineDataset’
method”)
for i, file_name in enumerate(FILE_NAMES):
   lines_dataset = tf.data.TextLineDataset(str(parent_dir/file_name))
   labeled_dataset = lines_dataset.map(lambda ex: labeler(ex, i))
   labeled_data_sets.append(labeled_dataset)

कोड क्रेडिट - https://www.tensorflow.org/tutorials/load_data/text

आउटपुट

An empty list has been created
Iterate through the file names and create a dataset from text file using ‘TextLineDataset’ method

स्पष्टीकरण

'TextLineDataset' का उपयोग किया जाता है, जो एक टेक्स्ट फ़ाइल से एक tf.data.A डेटासेट बनाता है।
प्रत्येक उदाहरण मूल फ़ाइल से पाठ की एक पंक्ति है
'text_dataset_from_directory' फ़ाइल की सामग्री को एक उदाहरण के रूप में मानता है।
TextLineDataset लाइन-आधारित टेक्स्ट डेटा के साथ काम करते समय उपयोगी होता है।
इन फ़ाइलों के माध्यम से पुनरावृति करें और प्रत्येक पंक्ति को अपने स्वयं के डेटासेट में लोड करें।
प्रत्येक उदाहरण को व्यक्तिगत रूप से लेबल किया जाना चाहिए, इसलिए 'tf.data.Dataset.map' का उपयोग प्रत्येक पंक्ति में एक लेबलर फ़ंक्शन लागू करने के लिए किया जाता है।
यह डेटासेट में प्रत्येक उदाहरण पर पुनरावृति करेगा, और आउटपुट के रूप में जोड़े (उदाहरण, लेबल) लौटाएगा।