आउटलेयर डिटेक्शन क्या है?

<घंटा/>

एक बाहरी एक डेटा ऑब्जेक्ट है जो अनिवार्य रूप से बाकी वस्तुओं से अलग हो जाता है जैसे कि यह कई तंत्रों द्वारा निर्मित किया गया था। प्रदर्शन की सामग्री के लिए, यह उन डेटा ऑब्जेक्ट्स को परिभाषित कर सकता है जो "सामान्य" या अपेक्षित डेटा के रूप में आउटलेयर नहीं हैं। आमतौर पर, यह आउटलेर्स को "असामान्य" डेटा के रूप में परिभाषित कर सकता है।

आउटलेयर डेटा घटक हैं जिन्हें किसी दिए गए वर्ग या क्लस्टर में नहीं जोड़ा जा सकता है। ये डेटा ऑब्जेक्ट हैं जिनमें विभिन्न डेटा ऑब्जेक्ट्स के सामान्य व्यवहार से कई व्यवहार होते हैं। इस तरह के डेटा का विश्लेषण मेरे ज्ञान के लिए महत्वपूर्ण हो सकता है।

आउटलेयर आकर्षक हैं क्योंकि उन्हें बाकी डेटा के समान संरचना द्वारा नहीं बनाए जाने का संदेह है। इसलिए, बाहरी पहचान में, यह उचित ठहराना आवश्यक है कि पहचाने गए आउटलेयर कई तंत्रों द्वारा क्यों उत्पन्न होते हैं।

एक-श्रेणी के वर्गीकरण को बाहरी (या नवीनता) पहचान के रूप में जाना जाता है क्योंकि प्रशिक्षण रिकॉर्ड के वितरण के संबंध में सामान्य और असामान्य होने वाले डेटा के बीच सीखने के एल्गोरिदम का उपयोग किया जा सकता है।

उदाहरण के लिए, एक सोशल मीडिया वेबसाइट का अवलोकन करके जहां नई सामग्री आ रही है, नवीनता का पता लगाने से नए विषयों और प्रवृत्तियों की तुरंत पहचान हो सकती है। उपन्यास विषय मूल रूप से आउटलेयर के रूप में प्रकट हो सकते हैं।

आउटलेयर डिटेक्शन और नॉवेल्टी डिटेक्शन मॉडलिंग और डिटेक्शन एप्रोच में कुछ समानताएं साझा करते हैं। लेकिन दोनों के बीच एक महत्वपूर्ण अंतर यह है कि नवीनता का पता लगाने में, एक बार नए विषयों की पुष्टि हो जाने के बाद, उन्हें आम तौर पर सामान्य व्यवहार के मॉडल में एकीकृत कर दिया जाता है ताकि अनुवर्ती उदाहरणों को अब बाहरी नहीं माना जा सके।

एक-श्रेणी के वर्गीकरण के लिए एक सामान्य सांख्यिकीय पद्धति बाहरी लोगों को ऐसे उदाहरणों के रूप में पहचानना है जो प्रशिक्षण जानकारी के दिए गए प्रतिशत पी से d दूरी पर स्थित हैं। इसके अलावा, प्रशिक्षण जानकारी के लिए एक गाऊसी सहित सांख्यिकीय वितरण को फिट करके लक्ष्य वर्ग के लिए एक संभाव्यता घनत्व की गणना की जा सकती है; कम प्रायिकता मान वाले कुछ परीक्षण उदाहरण आउटलेयर के रूप में स्पष्ट हो सकते हैं।

मल्टीक्लास क्लासिफायर को फोकस डेटा के चारों ओर एक सीमा फिट करके और बाहरी होने के लिए बाहरी होने वाले उदाहरणों को मानकर एक-श्रेणी की स्थिति के अनुरूप बनाया जा सकता है। समर्थन वेक्टर मशीनों सहित वर्तमान मल्टीक्लास क्लासिफायर के आंतरिक कामकाज को ठीक करके सीमा बनाई जा सकती है।

ये दृष्टिकोण बड़े पैमाने पर एक पैरामीटर पर निर्भर करते हैं जो यह तय करता है कि कितनी लक्ष्य जानकारी को आउटलेयर के रूप में परिभाषित किए जाने की संभावना है। यदि इसे बहुत अधिक रूढ़िवादी रूप से चुना जाता है, तो फ़ोकस वर्ग में डेटा ग़लती से हटा दिया जाएगा। यदि इसे बहुत उदारतापूर्वक चुना जाता है, तो मॉडल बहुत अधिक वैध रिकॉर्डों को ओवरफिट और अस्वीकार कर देगा। आमतौर पर परीक्षण के दौरान अस्वीकृति दर को संशोधित नहीं किया जा सकता है, क्योंकि प्रशिक्षण के समय एक उपयुक्त पैरामीटर मान का चयन करने की आवश्यकता होती है।