आउटलेयर क्या हैं?

<घंटा/>

एक बाहरी एक डेटा ऑब्जेक्ट है जो अनिवार्य रूप से बाकी वस्तुओं से अलग हो जाता है, जैसे कि इसे कई तंत्र द्वारा उत्पादित किया गया था। प्रस्तुति में आसानी के लिए, यह डेटा ऑब्जेक्ट्स को "सामान्य" या अपेक्षित जानकारी के रूप में परिभाषित कर सकता है जो बाहरी नहीं हैं। आमतौर पर, यह आउटलेर्स को "असामान्य" डेटा के रूप में परिभाषित कर सकता है।

आउटलेयर डेटा घटक हैं जिन्हें किसी दिए गए वर्ग या क्लस्टर में नहीं जोड़ा जा सकता है। ये डेटा ऑब्जेक्ट हैं जिनमें विभिन्न डेटा ऑब्जेक्ट्स के सामान्य व्यवहार से कई व्यवहार होते हैं। इस तरह के डेटा का विश्लेषण मेरे ज्ञान के लिए महत्वपूर्ण हो सकता है।

आउटलेयर शोर की जानकारी से अलग हैं। शोर एक परिकलित चर में एक यादृच्छिक बग या विचरण है। सामान्य तौर पर, डेटा विश्लेषण में शोर आकर्षक नहीं होता है, जैसे बाहरी पहचान।

उदाहरण के लिए, क्रेडिट कार्ड धोखाधड़ी का पता लगाने में, उपयोगकर्ता खरीद व्यवहार को एक यादृच्छिक चर के रूप में मॉडल किया जा सकता है। एक उपयोगकर्ता कुछ "शोर लेनदेन" कर सकता है जो "यादृच्छिक त्रुटियों" या "भिन्नता" की तरह देख सकता है, जिसमें एक दिन में बड़ा लंच खरीदना, या सामान्य से एक कप कॉफी प्राप्त करना शामिल है।

ऐसे लेनदेन को बाहरी नहीं माना जाना चाहिए; इसलिए, क्रेडिट कार्ड कंपनी कुछ लेनदेन की पुष्टि करने से बड़ी लागत वहन कर सकती है। कंपनी कई झूठे अलार्म से उपयोगकर्ताओं को परेशान करके उन्हें खो भी सकती है। कई डेटा विश्लेषण और डेटा खनन सेवाओं के रूप में, बाहरी पहचान से पहले शोर को समाप्त किया जाना चाहिए।

कुछ वास्तविक दुनिया के डेटाबेस में आउटलेयर या लापता, अनाम या गलत डेटा होता है। कुछ क्लस्टरिंग एल्गोरिदम ऐसे डेटा पर गहन होते हैं और खराब गुणवत्ता वाले समूहों में शुरू हो सकते हैं।

आउटलेयर आकर्षक हैं क्योंकि उन्हें बाकी डेटा के समान संरचना द्वारा नहीं बनाए जाने का संदेह है। इसलिए, बाहरी पहचान में, यह उचित ठहराना आवश्यक है कि पहचाने गए आउटलेयर कई तंत्रों द्वारा क्यों उत्पन्न होते हैं।

यह बाकी सूचनाओं पर विभिन्न धारणाओं को बनाकर और यह प्रदर्शित करके प्राप्त किया जाता है कि पता चला कि आउटलेर्स उन मान्यताओं का अनिवार्य रूप से उल्लंघन करते हैं। डेटा सेट सहित नवीनता का पता लगाने के लिए बाहरी पहचान भी जुड़ी हुई है। उदाहरण के लिए, एक सोशल मीडिया वेबसाइट को देखकर जहां नई सामग्री आ रही है, नवीनता का पता लगाने से नए विषयों और रुझानों की समय पर पहचान हो सकती है।

उपन्यास विषय मूल रूप से आउटलेयर के रूप में प्रकट हो सकते हैं। आउटलेयर डिटेक्शन और नॉवेल्टी डिटेक्शन मॉडलिंग और डिटेक्शन एप्रोच में कुछ समानताएं साझा करते हैं। लेकिन दोनों के बीच एक महत्वपूर्ण अंतर यह है कि नवीनता का पता लगाने में, एक बार नए विषयों की पुष्टि हो जाने के बाद, उन्हें आम तौर पर सामान्य व्यवहार के मॉडल में एकीकृत कर दिया जाता है ताकि अनुवर्ती उदाहरणों को अब बाहरी नहीं माना जा सके।