दूरी-आधारित बाहरी क्या है?

<घंटा/>

डेटा सेट S में एक ऑब्जेक्ट o दूरी-आधारित (DB) पैरामीटर p और d, यानी DB (p, d) के साथ है, यदि S में ऑब्जेक्ट का न्यूनतम अंश p d से अधिक दूरी पर स्थित है। ओ दूसरे शब्दों में, यह सांख्यिकीय परीक्षणों पर निर्भर होने के बजाय, दूरी-आधारित आउटलेर्स को उन वस्तुओं के रूप में सोच सकता है जिनके पास पर्याप्त पड़ोसी नहीं हैं।

पड़ोसियों को दी गई वस्तु से दूरी के आधार पर दर्शाया जाता है। सांख्यिकीय-आधारित विधियों की तुलना में, दूरी-आधारित बाहरी पहचान मानक वितरण के लिए विसंगति परीक्षण के पीछे के विचारों को सामान्यीकृत या विलय करती है। इसलिए, दूरी-आधारित बाहरी को एकीकृत बाहरी या यूओ-बाहरी के रूप में भी जाना जाता है।

दूरी-आधारित बाहरी पहचान अत्यधिक गणना को रोकता है जो कुछ मानक वितरण में देखे गए वितरण को फ़िट करने और विसंगति परीक्षणों को चुनने से संबंधित हो सकता है। कुछ विसंगति परीक्षणों के लिए, यह प्रदर्शित किया जा सकता है कि यदि दिए गए परीक्षण के अनुसार कोई वस्तु o एक बाहरी है, तो o कुछ ठीक से दर्शाए गए p और d के लिए भी एक DB (p, d) बाहरी है।

उदाहरण के लिए, यदि सामान्य वितरण पर विचार करते हुए, माध्य से 3 या अधिक मानक विचलन वाली वस्तुओं को आउटलेयर माना जाता है, तो यह प्रतिनिधित्व एक डीबी (0.9988, 0.13s) द्वारा "एकीकृत" किया जा सकता है - एक बाहरी। खनन दूरी-आधारित आउटलेर्स के लिए कई कुशल एल्गोरिदम हैं जो इस प्रकार बनाए गए हैं -

इंडेक्स-आधारित एल्गोरिथम - एक डेटा सेट को देखते हुए, इंडेक्स-आधारित एल्गोरिदम आर-पेड़ या के-डी पेड़ समेत बहुआयामी अनुक्रमण संरचनाओं की सुविधा प्रदान करता है, ताकि उस ऑब्जेक्ट के चारों ओर त्रिज्या डी के अंदर प्रत्येक ऑब्जेक्ट के पड़ोसियों की खोज की जा सके। मान लीजिए कि किसी बाहरी व्यक्ति के d-पड़ोस के भीतर M वस्तुओं की अधिकतम संख्या है। इसलिए, एक बार वस्तु o के M + 1 पड़ोसियों की खोज हो जाने के बाद, यह सुलभ है कि o बाहरी नहीं है। इस एल्गोरिथम में O (k * n2) की न्यूनतम केस जटिलता है, जहां k आयामीता है, और n डेटा सेट में ऑब्जेक्ट्स की संख्या है।

नेस्टेड-लूप एल्गोरिथम - नेस्टेड-लूप एल्गोरिदम में इंडेक्स-आधारित एल्गोरिदम के समान मूल्यांकन जटिलता है लेकिन इंडेक्स संरचना निर्माण से बचा जाता है और I/O की संख्या को कम करने का प्रयास करता है। यह मेमोरी बफर क्षेत्रों को दो हिस्सों में विभाजित करता है, और डेटा को कई तार्किक ब्लॉकों में सेट किया जाता है।

सेल-आधारित एल्गोरिथम - यह O(n² . से बच सकता है ) कम्प्यूटेशनल जटिलता, स्मृति-निवासी डेटा सेट के लिए एक सेल-आधारित एल्गोरिदम विकसित किया गया था। इसकी जटिलता O है (e^k + n), जहां c कोशिकाओं की संख्या के आधार पर एक स्थिरांक है, और k आयामीता है।

इस पद्धति में, डेटा स्थान को $\frac{d}{\sqrt[2]{k}}$ के समान पार्श्व लंबाई वाले कक्षों में विभाजित किया जाता है। प्रत्येक कोशिका के चारों ओर दो परतें होती हैं।

पहली परत एक सेल मोटी है, जबकि दूसरी $\sqrt[2]{k}$ सेल मोटी है, जो निकटतम पूर्णांक तक गोल है। एल्गोरिथम ऑब्जेक्ट-बाय-ऑब्जेक्ट के आधार पर सेल-बाय-सेल पर आउटलेर्स की गणना करता है। किसी दिए गए सेल के लिए, यह सेल में वस्तुओं की संख्या, सेल में और पहली परत में, और सेल में और दोनों परतों में एक साथ तीन गिनती जमा करता है।