विसंगतियों के कारण क्या हैं?

<घंटा/>

विसंगति का पता लगाने में, उद्देश्य उन वस्तुओं की खोज करना है जो कई वस्तुओं से भिन्न हैं। अक्सर, विषम वस्तुओं को आउटलेयर के रूप में संदर्भित किया जाता है, क्योंकि डेटा के स्कैटर प्लॉट पर, वे कई डेटा बिंदुओं से बहुत दूर होते हैं। विसंगति का पता लगाने को विचलन का पता लगाना कहा जाता है, क्योंकि विषम वस्तुओं में विशेषता मान होते हैं जो अनिवार्य रूप से अपेक्षित या सामान्य विशेषता मानों से विचलित होते हैं, या अपवाद खनन के रूप में, क्योंकि विसंगतियां कई अर्थों में असाधारण हैं।

ग्लोब, मानव समाज, या डेटा समूहों के डोमेन में, अधिकांश घटनाएं और वस्तुएं प्रतिनिधित्व, सामान्य क्षेत्र या रेगलर द्वारा होती हैं। लेकिन यह उन वस्तुओं की व्यवहार्यता का गहन ज्ञान हो सकता है जो अलग या असाधारण हैं। इसमें असाधारण रूप से शुष्क या बरसात के मौसम, लोकप्रिय एथलीट, या एक विशेषता मान शामिल है जो अन्य सभी की तुलना में बहुत छोटा या अधिक है।

विसंगतियों के कुछ कारण हैं जो इस प्रकार हैं -

विभिन्न वर्गों का डेटा - एक वस्तु कई वस्तुओं से भिन्न हो सकती है जैसे कि विषम, क्योंकि यह एक से अधिक प्रकार या वर्ग की होती है। उदाहरण के लिए, क्रेडिट कार्ड धोखाधड़ी करने वाला कोई व्यक्ति क्रेडिट कार्ड उपयोगकर्ताओं के एक से अधिक वर्ग से संबंधित है, उन व्यक्तियों की तुलना में जिन्हें क्रेडिट कार्ड की सटीक आवश्यकता है।

धोखाधड़ी, घुसपैठ, बीमारी का प्रकोप और असामान्य परीक्षण के परिणाम जैसे प्रदर्शित कुछ उदाहरण विसंगतियों के उदाहरण हैं जो तत्वों के एक अलग वर्ग को परिभाषित करते हैं। इस तरह की विसंगतियां काफी रुचिकर हैं और डेटा माइनिंग के क्षेत्र में विसंगतियों की पहचान का लक्ष्य हैं।

प्राकृतिक विविधता - कुछ डेटा सेट को सांख्यिकीय वितरण द्वारा मॉडल किया जा सकता है, जिसमें एक सामान्य (गॉसियन) वितरण शामिल है, जहां वितरण के बीच से ऑब्जेक्ट की दूरी बढ़ने पर डेटा ऑब्जेक्ट की संभावना तेजी से कम हो जाती है।

दूसरे शब्दों में, कुछ वस्तुएँ एक केंद्र (औसत वस्तु) के पास होती हैं और इस औसत वस्तु से एक वस्तु के अनिवार्य रूप से भिन्न होने की संभावना कम होती है। उदाहरण के लिए, एक असाधारण रूप से लंबा व्यक्ति वस्तुओं के एक स्वतंत्र वर्ग से होने के तरीके में असंगत नहीं है, बल्कि केवल कुछ वस्तुओं द्वारा उपभोग की गई विशेषता (ऊंचाई) के लिए पूर्ण मूल्य रखने की विधि में है। गंभीर या असंभावित विविधताओं को परिभाषित करने वाली विसंगतियां दिलचस्प हैं।

डेटा मापन और संग्रहण त्रुटियां - डेटा सेट या माप प्रक्रिया में त्रुटियां विसंगतियों का एक अन्य कारण हैं। उदाहरण के लिए, कंप्यूटिंग डिवाइस में मानवीय त्रुटि की समस्या या शोर की उपस्थिति के कारण माप को गलत तरीके से रिकॉर्ड किया जा सकता है।

उद्देश्य ऐसी विसंगतियों को दूर करना है, क्योंकि वे किसी दिलचस्प डेटा का समर्थन नहीं करते हैं, लेकिन केवल डेटा की विशेषता और बाद के डेटा विश्लेषण को कम करते हैं। वास्तव में, इस प्रकार की विसंगति को हटाना डेटा प्रीप्रोसेसिंग, विशेष रूप से डेटा सफाई का लक्ष्य है।