प्री-प्रोसेसिंग डेटा से तात्पर्य डेटा की सफाई, अमान्य डेटा को हटाने, शोर, प्रासंगिक मूल्यों के साथ डेटा को बदलने आदि से है।
इसका मतलब हमेशा टेक्स्ट डेटा नहीं होता है; यह चित्र या वीडियो प्रसंस्करण भी हो सकता है। यह मशीन लर्निंग पाइपलाइन में एक महत्वपूर्ण कदम है।
डेटा प्री-प्रोसेसिंग मूल रूप से सभी डेटा (जो विभिन्न संसाधनों या एक संसाधन से एकत्र किया जाता है) को एक सामान्य प्रारूप में या एक समान डेटासेट (डेटा के प्रकार के आधार पर) में एकत्रित करने के कार्य को संदर्भित करता है।
ऐसा इसलिए किया जाता है ताकि लर्निंग एल्गोरिथम इस डेटासेट से सीख सके और उच्च सटीकता के साथ प्रासंगिक परिणाम दे सके। चूंकि वास्तविक दुनिया का डेटा कभी भी आदर्श नहीं होता है, इसलिए इस बात की संभावना है कि डेटा में लापता सेल, त्रुटियां, आउटलेयर, कॉलम में विसंगतियां, और बहुत कुछ होगा।
कभी-कभी, छवियों को सही ढंग से संरेखित नहीं किया जा सकता है, या स्पष्ट नहीं हो सकता है या बहुत बड़ा आकार हो सकता है। प्री-प्रोसेसिंग का लक्ष्य इन विसंगतियों और त्रुटियों को दूर करना है। डेटा पूर्व-प्रसंस्करण एक एकल कार्य नहीं है, बल्कि उन कार्यों का एक समूह है जो चरण दर चरण निष्पादित किए जाते हैं।
एक चरण का आउटपुट अगले चरण आदि का इनपुट बन जाता है।
आइए संख्यात्मक मानों को बूलियन मानों में बदलने का उदाहरण लें -
उदाहरण
import numpy as np from sklearn import preprocessing input_data = np.array([[34.78, 31.9, -65.5],[-16.5, 2.45, -83.5],[0.5, -87.98, 45.62], [5.9, 2.38, -55.82]]) data_binarized = preprocessing.Binarizer(threshold=0.5).transform(input_data) print("\Values converted from numeric to Boolean :\n", data_binarized)
आउटपुट
Values converted from numeric to Boolean : [[1. 1. 0.] [0. 1. 0.] [0. 0. 1.] [1. 1. 0.]]
स्पष्टीकरण
- आवश्यक पैकेज आयात किए जाते हैं।
- नम्पी लाइब्रेरी का उपयोग करके इनपुट डेटा जेनरेट किया जाता है।
- स्केलेर के 'प्रीप्रोसेसिंग' वर्ग में मौजूद 'बिनाराइज़र' फ़ंक्शन का उपयोग संख्यात्मक मानों को बूलियन मानों में बदलने के लिए किया जाता है।
- बूलियन मान मूल रूप से केवल 1 और 0 को संदर्भित करता है।
- यह रूपांतरित डेटा कंसोल पर प्रिंट होता है।