प्री-प्रोसेसिंग डेटा से तात्पर्य डेटा की सफाई, अमान्य डेटा को हटाने, शोर, प्रासंगिक मूल्यों के साथ डेटा को बदलने आदि से है।
इसका मतलब हमेशा टेक्स्ट डेटा नहीं होता है; यह चित्र या वीडियो प्रसंस्करण भी हो सकता है। यह मशीन लर्निंग पाइपलाइन में एक महत्वपूर्ण कदम है।
डेटा प्री-प्रोसेसिंग मूल रूप से सभी डेटा (जो विभिन्न संसाधनों या एक संसाधन से एकत्र किया जाता है) को एक सामान्य प्रारूप में या एक समान डेटासेट (डेटा के प्रकार के आधार पर) में एकत्रित करने के कार्य को संदर्भित करता है।
ऐसा इसलिए किया जाता है ताकि लर्निंग एल्गोरिथम इस डेटासेट से सीख सके और उच्च सटीकता के साथ प्रासंगिक परिणाम दे सके। चूंकि वास्तविक दुनिया का डेटा कभी भी आदर्श नहीं होता है, इसलिए इस बात की संभावना है कि डेटा में लापता सेल, त्रुटियां, आउटलेयर, कॉलम में विसंगतियां, और बहुत कुछ होगा।
कभी-कभी, छवियों को सही ढंग से संरेखित नहीं किया जा सकता है, या स्पष्ट नहीं हो सकता है या बहुत बड़ा आकार हो सकता है। प्री-प्रोसेसिंग का लक्ष्य इन विसंगतियों और त्रुटियों को दूर करना है। डेटा पूर्व-प्रसंस्करण एक एकल कार्य नहीं है, बल्कि उन कार्यों का एक समूह है जो चरण दर चरण निष्पादित किए जाते हैं।
एक चरण का आउटपुट अगले चरण आदि का इनपुट बन जाता है।
आइए संख्यात्मक मानों को बूलियन मानों में बदलने का उदाहरण लें -
उदाहरण
import numpy as np
from sklearn import preprocessing
input_data = np.array([[34.78, 31.9, -65.5],[-16.5, 2.45, -83.5],[0.5, -87.98, 45.62],
[5.9, 2.38, -55.82]])
data_binarized = preprocessing.Binarizer(threshold=0.5).transform(input_data)
print("\Values converted from numeric to Boolean :\n", data_binarized) आउटपुट
Values converted from numeric to Boolean : [[1. 1. 0.] [0. 1. 0.] [0. 0. 1.] [1. 1. 0.]]
स्पष्टीकरण
- आवश्यक पैकेज आयात किए जाते हैं।
- नम्पी लाइब्रेरी का उपयोग करके इनपुट डेटा जेनरेट किया जाता है।
- स्केलेर के 'प्रीप्रोसेसिंग' वर्ग में मौजूद 'बिनाराइज़र' फ़ंक्शन का उपयोग संख्यात्मक मानों को बूलियन मानों में बदलने के लिए किया जाता है।
- बूलियन मान मूल रूप से केवल 1 और 0 को संदर्भित करता है।
- यह रूपांतरित डेटा कंसोल पर प्रिंट होता है।