प्री-प्रोसेसिंग डेटा से तात्पर्य डेटा की सफाई, अमान्य डेटा को हटाने, शोर, प्रासंगिक मूल्यों के साथ डेटा को बदलने आदि से है।
डेटा प्री-प्रोसेसिंग मूल रूप से सभी डेटा (जो विभिन्न संसाधनों या एक संसाधन से एकत्र किया जाता है) को एक सामान्य प्रारूप में या एक समान डेटासेट (डेटा के प्रकार के आधार पर) में इकट्ठा करने के कार्य को संदर्भित करता है। एक चरण का आउटपुट अगले चरण आदि का इनपुट बन जाता है।
विशिष्ट परिणाम प्राप्त करने के लिए इनपुट डेटा से माध्य मानों को हटाना पड़ सकता है। आइए समझते हैं कि स्किकिट-लर्न लाइब्रेरी का उपयोग करके इसे कैसे प्राप्त किया जा सकता है।
उदाहरण
import numpy as np from sklearn import preprocessing input_data = np.array([ [34.78, 31.9, -65.5], [-16.5, 2.45, -83.5], [0.5, -87.98, 45.62], [5.9, 2.38, -55.82]]) print("Mean value is : ", input_data.mean(axis=0)) print("Standard deviation value is : ", input_data.std(axis=0)) data_scaled = preprocessing.scale(input_data) print("Mean value has been removed ", data_scaled.mean(axis=0)) print("Standard deviation has been removed ", data_scaled.std(axis=0))
आउटपुट
Mean value is : [ 6.17 -12.8125 -39.8 ] Standard deviation value is : [18.4708067 45.03642047 50.30754615] Mean value has been removed [-2.60208521e-18 -8.32667268e-17 -1.11022302e-16] Standard deviation has been removed [1. 1. 1.]
स्पष्टीकरण
-
आवश्यक पैकेज आयात किए जाते हैं।
-
इनपुट डेटा Numpy लाइब्रेरी का उपयोग करके जेनरेट किया जाता है।
-
माध्य और मानक विचलन मानों की गणना की जाती है।
-
वे कंसोल पर प्रदर्शित होते हैं।
-
डेटा से माध्य और मानक विचलन मानों को हटाने के लिए 'data_scaled' फ़ंक्शन का उपयोग किया जाता है।
-
यह हटाया गया माध्य और मानक विचलन डेटा कंसोल पर प्रदर्शित होता है।