डेटा प्री-प्रोसेसिंग मूल रूप से सभी डेटा (जो विभिन्न संसाधनों या एक संसाधन से एकत्र किया जाता है) को एक सामान्य प्रारूप में या एक समान डेटासेट (डेटा के प्रकार के आधार पर) में एकत्रित करने के कार्य को संदर्भित करता है।
चूंकि वास्तविक दुनिया का डेटा कभी भी आदर्श नहीं होता है, इसलिए इस बात की संभावना है कि डेटा में लापता सेल, त्रुटियां, आउटलेयर, कॉलम में विसंगतियां, और बहुत कुछ होगा।
कभी-कभी, छवियों को सही ढंग से संरेखित नहीं किया जा सकता है, या स्पष्ट नहीं हो सकता है या बहुत बड़ा आकार हो सकता है। प्री-प्रोसेसिंग का लक्ष्य इन विसंगतियों और त्रुटियों को दूर करना है।
एक छवि के पिक्सेल प्राप्त करने के लिए, 'flatten' नामक एक अंतर्निहित फ़ंक्शन का उपयोग किया जाता है। छवि पढ़ने के बाद, पिक्सेल मान डेटाफ़्रेम के रूप में संग्रहीत होते हैं। फ़ंक्शन 'फ़्लैटन' का उपयोग आरजीबी छवि के तीन आयामों को एकल आयाम में बदलने और पिक्सेल के मान को डेटाफ़्रेम में प्राप्त करने के लिए किया जाता है।
संपूर्ण डेटाफ़्रेम को प्रिंट करने के बजाय, डेटाफ़्रेम के आयाम मुद्रित किए जाते हैं। आइए हम स्किकिट-लर्न लाइब्रेरी का उपयोग करके एक छवि अपलोड करने और छवि में मौजूद पिक्सेल को डेटाफ़्रेम के रूप में प्राप्त करने का उदाहरण लेते हैं -
उदाहरण
from skimage import io import pandas as pd path = "path to puppy.PNG" img = io.imread(path) print("Image being read") io.imshow(img) print("Image printed on console") my_df = pd.DataFrame(img.flatten()) print("The image pixels dimensions are ") print(my_df.shape)
आउटपुट
Image being read Image printed on console The image pixels dimensions are (886104, 1)
स्पष्टीकरण
-
आवश्यक पुस्तकालय आयात किए जाते हैं।
-
जिस पथ पर छवि संग्रहीत है उसे परिभाषित किया गया है।
-
'इम्रेड' फ़ंक्शन का उपयोग पथ पर जाने और छवि को पढ़ने के लिए किया जाता है।
-
कंसोल पर छवि प्रदर्शित करने के लिए 'इमशो' फ़ंक्शन का उपयोग किया जाता है।
-
फ़ंक्शन 'फ़्लैटन' का उपयोग आरजीबी छवि के तीन आयामों को एकल आयाम में बदलने और पिक्सेल के मान को डेटाफ़्रेम में प्राप्त करने के लिए किया जाता है।
-
डेटाफ़्रेम को प्रिंट करने के बजाय जिसमें बहुत अधिक पंक्तियाँ हैं, डेटाफ़्रेम के आयाम प्रदर्शित होते हैं।
-
डेटाफ़्रेम को 'प्रिंट (my_df)' . का उपयोग करके देखा जा सकता है ।
-
आउटपुट एक डेटाफ़्रेम है जिसमें छवि पिक्सेल मान कंसोल पर मुद्रित होते हैं।