डेटा क्लीनिंग क्या है?

<घंटा/>

डेटा की सफाई, लापता मानों को भरकर, शोर वाले डेटा को सुचारू करके, आउटलेर्स का विश्लेषण और हटाकर और डेटा में विसंगतियों को दूर करके डेटा को साफ करने के लिए परिभाषित करता है। कभी-कभी विवरण के कई स्तरों पर डेटा आवश्यक से भिन्न हो सकता है, उदाहरण के लिए, इसमें 20-30, 30-40, 40-50 की आयु सीमा की आवश्यकता हो सकती है, और आयातित डेटा में जन्म तिथि शामिल होती है। डेटा को उपयुक्त प्रकारों में विभाजित करके डेटा को साफ़ किया जा सकता है।

डेटा की सफाई के प्रकार

विभिन्न प्रकार के डेटा क्लीनिंग हैं जो इस प्रकार हैं -

अनुपलब्ध मान - गुम मान उपयुक्त मानों से भरे हुए हैं। मानों को भरने के लिए निम्नलिखित दृष्टिकोण हैं।
- टपल को अनदेखा कर दिया जाता है जब इसमें लापता मानों के साथ कई विशेषताएँ शामिल होती हैं।
- अनुपलब्ध मान के लिए मान मैन्युअल रूप से भरे जाते हैं।
- वही वैश्विक स्थिरांक मानों को भर सकता है।
- विशेषता माध्य अनुपलब्ध मानों को भर सकता है।
- सबसे संभावित मान लापता मानों को भर सकता है।
शोरगुल वाला डेटा - शोर एक मापा चर में एक यादृच्छिक त्रुटि या भिन्नता है। शोर को संभालने के लिए निम्नलिखित चौरसाई विधियाँ हैं जो इस प्रकार हैं -
- बिनिंग - ये विधियां अपने "पड़ोस", विशेष रूप से, शोर की जानकारी के आसपास के मूल्यों से परामर्श करके एक व्यवस्थित डेटा मान को सुचारू करती हैं। व्यवस्थित मूल्यों को कई बाल्टी या डिब्बे में वितरित किया जाता है। क्योंकि बिनिंग विधियाँ मूल्यों के पड़ोस से परामर्श करती हैं, वे स्थानीय चौरसाई को लागू करती हैं।
- प्रतिगमन - डेटा को रिग्रेशन सहित किसी फ़ंक्शन के लिए जानकारी को फ़िट करके सुचारू किया जा सकता है। रैखिक प्रतिगमन में दो विशेषताओं (या चर) को फिट करने के लिए "सर्वश्रेष्ठ" रेखा खोजना शामिल है ताकि एक विशेषता का उपयोग दूसरे की भविष्यवाणी करने के लिए किया जा सके। एकाधिक रेखीय प्रतिगमन रैखिक प्रतिगमन का विकास है, जहां दो से अधिक विशेषताएं निहित हैं और डेटा एक बहुआयामी क्षेत्र के लिए उपयुक्त हैं।
- क्लस्टरिंग - क्लस्टरिंग आउटलेर्स की पहचान करने में सहायता करता है। समान मान समूहों में व्यवस्थित होते हैं और वे मान जो क्लस्टर के बाहर आते हैं, आउटलेयर के रूप में जाने जाते हैं।
- संयुक्त कंप्यूटर और मानव निरीक्षण - आउटलेर्स को कंप्यूटर और मानव निरीक्षण के समर्थन से भी पहचाना जा सकता है। आउटलेर्स पैटर्न वर्णनात्मक या कचरा हो सकता है। आश्चर्यजनक मूल्य वाले पैटर्न को सूची में आउटपुट किया जा सकता है।
असंगत डेटा - डेटा प्रविष्टि के दौरान, या एकाधिक डेटाबेस से जानकारी को एकीकृत करने से उत्पन्न होने वाले विभिन्न लेनदेन में असंगति दर्ज की जा सकती है। कुछ अतिरेक को सहसंबंध विश्लेषण द्वारा पहचाना जा सकता है। विभिन्न स्रोतों से डेटा का सटीक और उचित एकीकरण कम हो सकता है और अतिरेक से बच सकता है।