TensorFlow का उपयोग करके ऑटो MPG डेटासेट के साथ ईंधन दक्षता का अनुमान लगाने के लिए डेटा को कैसे साफ़ किया जा सकता है?

Tensorflow एक मशीन लर्निंग फ्रेमवर्क है जो Google द्वारा प्रदान किया जाता है। यह एक ओपन-सोर्स फ्रेमवर्क है जिसका उपयोग एल्गोरिदम, गहन शिक्षण अनुप्रयोगों और बहुत कुछ को लागू करने के लिए पायथन के संयोजन में किया जाता है।

कोड की निम्न पंक्ति का उपयोग करके विंडोज़ पर 'टेंसरफ़्लो' पैकेज स्थापित किया जा सकता है -

pip install tensorflow

Tensor एक डेटा संरचना है जिसका उपयोग TensorFlow में किया जाता है। यह प्रवाह आरेख में किनारों को जोड़ने में मदद करता है। इस प्रवाह आरेख को 'डेटा प्रवाह ग्राफ' के रूप में जाना जाता है। टेंसर और कुछ नहीं बल्कि एक बहुआयामी सरणी या एक सूची है।

प्रतिगमन समस्या के पीछे का उद्देश्य एक निरंतर या असतत चर के उत्पादन की भविष्यवाणी करना है, जैसे कि मूल्य, संभावना, बारिश होगी या नहीं और इसी तरह।

हमारे द्वारा उपयोग किए जाने वाले डेटासेट को 'ऑटो एमपीजी' डेटासेट कहा जाता है। इसमें 1970 और 1980 के दशक के ऑटोमोबाइल की ईंधन दक्षता शामिल है। इसमें वजन, अश्वशक्ति, विस्थापन आदि जैसे गुण शामिल हैं। इसके साथ, हमें विशिष्ट वाहनों की ईंधन दक्षता की भविष्यवाणी करने की आवश्यकता है।

हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है।

निम्नलिखित कोड स्निपेट है जिसमें हम देखेंगे कि TensorFlow का उपयोग करके ऑटो MPG डेटासेट के साथ ईंधन दक्षता का अनुमान लगाने के लिए डेटा को कैसे साफ किया जा सकता है -

उदाहरण

print("Data cleaning has begun")
dataset.isna().sum()
dataset = dataset.dropna()
dataset['Origin'] = dataset['Origin'].map({1: 'USA', 2: 'Europe', 3: 'Japan'})

print("Data cleaning complete!")
dataset = pd.get_dummies(dataset, prefix='', prefix_sep='')

print("A sample of dataset after data cleaning :")
dataset.head(4)

कोड क्रेडिट - https://www.tensorflow.org/tutorials/keras/regression

आउटपुट

Data cleaning has begun
Data cleaning complete!
A sample of dataset after data cleaning −

<थड> <थ>विस्थापन <थ>अश्वशक्ति <वें>वजन <वें>मॉडल वर्ष <थ>यूरोप <थ>जापान <वें>यूएसए

<थ>एमपीजी	सिलेंडर	त्वरण
0	18.0	8	307.0	130.0	3504.0	12.0	70	1
1	15.0	8	350.0	165.0	3693.0	11.5	70	1
2	18.0	8	318.0	150.0	3436.0	11.0	70	1
3	16.0	8	304.0	150.0	3433.0	12.0	70	1

स्पष्टीकरण

डेटासेट में मौजूद 'नैन' को मिटाने से डेटा की सफाई शुरू होती है।
'मैप' फ़ंक्शन का उपयोग लेबल को कॉलम नामों में मैप करने के लिए किया जाता है।
डेटा की सफाई के बाद डाटासेट का एक नमूना कंसोल पर प्रदर्शित होता है।