Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

आउटलेयर डिटेक्शन क्या है?

<घंटा/>

एक बाहरी एक डेटा ऑब्जेक्ट है जो अनिवार्य रूप से बाकी वस्तुओं से अलग हो जाता है जैसे कि यह कई तंत्रों द्वारा निर्मित किया गया था। प्रदर्शन की सामग्री के लिए, यह उन डेटा ऑब्जेक्ट्स को परिभाषित कर सकता है जो "सामान्य" या अपेक्षित डेटा के रूप में आउटलेयर नहीं हैं। आमतौर पर, यह आउटलेर्स को "असामान्य" डेटा के रूप में परिभाषित कर सकता है।

आउटलेयर डेटा घटक हैं जिन्हें किसी दिए गए वर्ग या क्लस्टर में नहीं जोड़ा जा सकता है। ये डेटा ऑब्जेक्ट हैं जिनमें विभिन्न डेटा ऑब्जेक्ट्स के सामान्य व्यवहार से कई व्यवहार होते हैं। इस तरह के डेटा का विश्लेषण मेरे ज्ञान के लिए महत्वपूर्ण हो सकता है।

आउटलेयर आकर्षक हैं क्योंकि उन्हें बाकी डेटा के समान संरचना द्वारा नहीं बनाए जाने का संदेह है। इसलिए, बाहरी पहचान में, यह उचित ठहराना आवश्यक है कि पहचाने गए आउटलेयर कई तंत्रों द्वारा क्यों उत्पन्न होते हैं।

एक-श्रेणी के वर्गीकरण को बाहरी (या नवीनता) पहचान के रूप में जाना जाता है क्योंकि प्रशिक्षण रिकॉर्ड के वितरण के संबंध में सामान्य और असामान्य होने वाले डेटा के बीच सीखने के एल्गोरिदम का उपयोग किया जा सकता है।

उदाहरण के लिए, एक सोशल मीडिया वेबसाइट का अवलोकन करके जहां नई सामग्री आ रही है, नवीनता का पता लगाने से नए विषयों और प्रवृत्तियों की तुरंत पहचान हो सकती है। उपन्यास विषय मूल रूप से आउटलेयर के रूप में प्रकट हो सकते हैं।

आउटलेयर डिटेक्शन और नॉवेल्टी डिटेक्शन मॉडलिंग और डिटेक्शन एप्रोच में कुछ समानताएं साझा करते हैं। लेकिन दोनों के बीच एक महत्वपूर्ण अंतर यह है कि नवीनता का पता लगाने में, एक बार नए विषयों की पुष्टि हो जाने के बाद, उन्हें आम तौर पर सामान्य व्यवहार के मॉडल में एकीकृत कर दिया जाता है ताकि अनुवर्ती उदाहरणों को अब बाहरी नहीं माना जा सके।

एक-श्रेणी के वर्गीकरण के लिए एक सामान्य सांख्यिकीय पद्धति बाहरी लोगों को ऐसे उदाहरणों के रूप में पहचानना है जो प्रशिक्षण जानकारी के दिए गए प्रतिशत पी से d दूरी पर स्थित हैं। इसके अलावा, प्रशिक्षण जानकारी के लिए एक गाऊसी सहित सांख्यिकीय वितरण को फिट करके लक्ष्य वर्ग के लिए एक संभाव्यता घनत्व की गणना की जा सकती है; कम प्रायिकता मान वाले कुछ परीक्षण उदाहरण आउटलेयर के रूप में स्पष्ट हो सकते हैं।

मल्टीक्लास क्लासिफायर को फोकस डेटा के चारों ओर एक सीमा फिट करके और बाहरी होने के लिए बाहरी होने वाले उदाहरणों को मानकर एक-श्रेणी की स्थिति के अनुरूप बनाया जा सकता है। समर्थन वेक्टर मशीनों सहित वर्तमान मल्टीक्लास क्लासिफायर के आंतरिक कामकाज को ठीक करके सीमा बनाई जा सकती है।

ये दृष्टिकोण बड़े पैमाने पर एक पैरामीटर पर निर्भर करते हैं जो यह तय करता है कि कितनी लक्ष्य जानकारी को आउटलेयर के रूप में परिभाषित किए जाने की संभावना है। यदि इसे बहुत अधिक रूढ़िवादी रूप से चुना जाता है, तो फ़ोकस वर्ग में डेटा ग़लती से हटा दिया जाएगा। यदि इसे बहुत उदारतापूर्वक चुना जाता है, तो मॉडल बहुत अधिक वैध रिकॉर्डों को ओवरफिट और अस्वीकार कर देगा। आमतौर पर परीक्षण के दौरान अस्वीकृति दर को संशोधित नहीं किया जा सकता है, क्योंकि प्रशिक्षण के समय एक उपयुक्त पैरामीटर मान का चयन करने की आवश्यकता होती है।


  1. बाहरी पता लगाने के तरीके क्या हैं?

    बाहरी पता लगाने के विभिन्न तरीके इस प्रकार हैं - पर्यवेक्षित तरीके - पर्यवेक्षित तरीके मॉडल डेटा सामान्यता और असामान्यता। डोमेन पेशेवर मूल डेटा के नमूने का परीक्षण और लेबल लगाते हैं। बाहरी पहचान को वर्गीकरण मुद्दे के रूप में तैयार किया जा सकता है। सेवा एक ऐसे क्लासिफायरियर को समझना है जो आउटलेर्स क

  1. बाहरी पहचान की चुनौतियां क्या हैं?

    एक बाहरी एक डेटा ऑब्जेक्ट है जो बाकी वस्तुओं से अनिवार्य रूप से विचलित होता है, जैसे कि यह एक अलग संरचना द्वारा निर्मित किया गया हो। प्रस्तुति में आसानी के लिए, यह डेटा ऑब्जेक्ट्स को सामान्य या अपेक्षित जानकारी के रूप में परिभाषित कर सकता है जो बाहरी नहीं हैं। इसी तरह, यह आउटलेर्स को असामान्य डेटा क

  1. आउटलेयर क्या हैं?

    एक बाहरी एक डेटा ऑब्जेक्ट है जो अनिवार्य रूप से बाकी वस्तुओं से अलग हो जाता है, जैसे कि इसे कई तंत्र द्वारा उत्पादित किया गया था। प्रस्तुति में आसानी के लिए, यह डेटा ऑब्जेक्ट्स को सामान्य या अपेक्षित जानकारी के रूप में परिभाषित कर सकता है जो बाहरी नहीं हैं। आमतौर पर, यह आउटलेर्स को असामान्य डेटा के