मशीन लर्निंग एल्गोरिदम के निर्माण में डेटा प्री-प्रोसेसिंग चरण में फ़ीचर स्केलिंग एक महत्वपूर्ण कदम है। यह डेटा को एक विशिष्ट श्रेणी में आने के लिए सामान्य बनाने में मदद करता है।
कभी-कभी, यह उस गति को बढ़ाने में भी मदद करता है जिस गति से मशीन द्वारा गणना की जाती है।
इसकी आवश्यकता क्यों है?
इनपुट के रूप में लर्निंग एल्गोरिथम को खिलाया गया डेटा सुसंगत और संरचित रहना चाहिए। मूल्यों का प्रभावी ढंग से अनुमान लगाने के लिए इनपुट डेटा की सभी विशेषताएं एकल पैमाने पर होनी चाहिए। लेकिन वास्तविक दुनिया में, डेटा असंरचित होता है, और अधिकांश समय, समान पैमाने पर नहीं होता है।
यह तब होता है जब सामान्यीकरण तस्वीर में आता है। यह सबसे महत्वपूर्ण डेटा-तैयारी प्रक्रियाओं में से एक है। यह इनपुट डेटासेट के कॉलम के मानों को समान पैमाने पर बदलने में मदद करता है।
आइए समझते हैं कि स्किकिट लर्न लाइब्रेरी का उपयोग पायथन में फीचर स्केलिंग करने के लिए कैसे किया जा सकता है।
उदाहरण
np के रूप में numpy आयात करें sklearn से आयात करें preprocessinginput_data =np.array([[34.78, 31.9, -65.5],[-16.5, 2.45, -83.5],[0.5, -87.98, 45.62],[5.9, 2.38, - 55.82]])data_scaler_minmax =पूर्व प्रसंस्करण।आउटपुट
स्केल किया गया डेटा है[[1. 1. 0.1394052 ][0. 0.75433767 0. ][0.33151326 0. 1.] [0.43681747 0.75375376.0.21437423]]स्पष्टीकरण
-
आवश्यक पैकेज आयात किए जाते हैं।
-
इनपुट डेटा Numpy लाइब्रेरी का उपयोग करके जेनरेट किया जाता है।
-
'प्रीप्रोसेसिंग' वर्ग में मौजूद MinMaxScaler फ़ंक्शन का उपयोग डेटा को 0 और 1 की श्रेणी में आने के लिए स्केल करने के लिए किया जाता है।
-
इस तरह, सरणी में कोई भी डेटा 0 और 1 के बीच के मान तक कम हो जाता है।
-
यह स्केल किया गया डेटा कंसोल पर प्रदर्शित होता है।