प्री-प्रोसेसिंग डेटा से तात्पर्य डेटा की सफाई, अमान्य डेटा, शोर को हटाना, डेटा को प्रासंगिक मानों से बदलना आदि से है। इसका मतलब हमेशा टेक्स्ट डेटा नहीं होता है; यह चित्र या वीडियो प्रसंस्करण भी हो सकता है।
डेटा प्री-प्रोसेसिंग मूल रूप से सभी डेटा (जो विभिन्न संसाधनों या एक संसाधन से एकत्र किया जाता है) को एक सामान्य प्रारूप में या एक समान डेटासेट (डेटा के प्रकार के आधार पर) में इकट्ठा करने के कार्य को संदर्भित करता है। चूंकि वास्तविक दुनिया का डेटा कभी भी आदर्श नहीं होता है, इसलिए इस बात की संभावना है कि डेटा में लापता सेल, त्रुटियां, आउटलेयर, कॉलम में विसंगतियां, और बहुत कुछ होगा।
कभी-कभी, छवियों को सही ढंग से संरेखित नहीं किया जा सकता है, या स्पष्ट नहीं हो सकता है या बहुत बड़ा आकार हो सकता है। प्री-प्रोसेसिंग का लक्ष्य इन विसंगतियों और त्रुटियों को दूर करना है।
आइए हम स्किकिट-लर्न लाइब्रेरी का उपयोग करके एक छवि अपलोड करने और इसे कंसोल पर देखने का उदाहरण लेते हैं -
उदाहरण
from skimage import io path = "path to puppy.PNG" img = io.imread(path) print("Image being read") io.imshow(img) print("Image printed on console")
आउटपुट
स्पष्टीकरण
- आवश्यक पुस्तकालय आयात किए जाते हैं।
- वह पथ जहां छवि संग्रहीत है परिभाषित की गई है।
- 'इमरीड' फ़ंक्शन का उपयोग पथ पर जाने और चित्र को पढ़ने के लिए किया जाता है।
- छवि पढ़ने के बाद, पिक्सेल मान एक सरणी के रूप में संग्रहीत किए जाते हैं।
- यह सरणी कुछ और नहीं बल्कि एक नम्पी सरणी है।
- छवि को पढ़ा जाता है और एक सरणी में परिवर्तित किया जाता है।
- कंसोल पर छवि प्रदर्शित करने के लिए 'इमशो' फ़ंक्शन का उपयोग किया जाता है।
- डेटा कंसोल पर प्रदर्शित होता है।