Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

दूरी-आधारित बाहरी क्या है?

<घंटा/>

डेटा सेट S में एक ऑब्जेक्ट o दूरी-आधारित (DB) पैरामीटर p और d, यानी DB (p, d) के साथ है, यदि S में ऑब्जेक्ट का न्यूनतम अंश p d से अधिक दूरी पर स्थित है। ओ दूसरे शब्दों में, यह सांख्यिकीय परीक्षणों पर निर्भर होने के बजाय, दूरी-आधारित आउटलेर्स को उन वस्तुओं के रूप में सोच सकता है जिनके पास पर्याप्त पड़ोसी नहीं हैं।

पड़ोसियों को दी गई वस्तु से दूरी के आधार पर दर्शाया जाता है। सांख्यिकीय-आधारित विधियों की तुलना में, दूरी-आधारित बाहरी पहचान मानक वितरण के लिए विसंगति परीक्षण के पीछे के विचारों को सामान्यीकृत या विलय करती है। इसलिए, दूरी-आधारित बाहरी को एकीकृत बाहरी या यूओ-बाहरी के रूप में भी जाना जाता है।

दूरी-आधारित बाहरी पहचान अत्यधिक गणना को रोकता है जो कुछ मानक वितरण में देखे गए वितरण को फ़िट करने और विसंगति परीक्षणों को चुनने से संबंधित हो सकता है। कुछ विसंगति परीक्षणों के लिए, यह प्रदर्शित किया जा सकता है कि यदि दिए गए परीक्षण के अनुसार कोई वस्तु o एक बाहरी है, तो o कुछ ठीक से दर्शाए गए p और d के लिए भी एक DB (p, d) बाहरी है।

उदाहरण के लिए, यदि सामान्य वितरण पर विचार करते हुए, माध्य से 3 या अधिक मानक विचलन वाली वस्तुओं को आउटलेयर माना जाता है, तो यह प्रतिनिधित्व एक डीबी (0.9988, 0.13s) द्वारा "एकीकृत" किया जा सकता है - एक बाहरी। खनन दूरी-आधारित आउटलेर्स के लिए कई कुशल एल्गोरिदम हैं जो इस प्रकार बनाए गए हैं -

इंडेक्स-आधारित एल्गोरिथम - एक डेटा सेट को देखते हुए, इंडेक्स-आधारित एल्गोरिदम आर-पेड़ या के-डी पेड़ समेत बहुआयामी अनुक्रमण संरचनाओं की सुविधा प्रदान करता है, ताकि उस ऑब्जेक्ट के चारों ओर त्रिज्या डी के अंदर प्रत्येक ऑब्जेक्ट के पड़ोसियों की खोज की जा सके। मान लीजिए कि किसी बाहरी व्यक्ति के d-पड़ोस के भीतर M वस्तुओं की अधिकतम संख्या है। इसलिए, एक बार वस्तु o के M + 1 पड़ोसियों की खोज हो जाने के बाद, यह सुलभ है कि o बाहरी नहीं है। इस एल्गोरिथम में O (k * n2) की न्यूनतम केस जटिलता है, जहां k आयामीता है, और n डेटा सेट में ऑब्जेक्ट्स की संख्या है।

नेस्टेड-लूप एल्गोरिथम - नेस्टेड-लूप एल्गोरिदम में इंडेक्स-आधारित एल्गोरिदम के समान मूल्यांकन जटिलता है लेकिन इंडेक्स संरचना निर्माण से बचा जाता है और I/O की संख्या को कम करने का प्रयास करता है। यह मेमोरी बफर क्षेत्रों को दो हिस्सों में विभाजित करता है, और डेटा को कई तार्किक ब्लॉकों में सेट किया जाता है।

सेल-आधारित एल्गोरिथम - यह O(n 2 . से बच सकता है ) कम्प्यूटेशनल जटिलता, स्मृति-निवासी डेटा सेट के लिए एक सेल-आधारित एल्गोरिदम विकसित किया गया था। इसकी जटिलता O है (e k + n), जहां c कोशिकाओं की संख्या के आधार पर एक स्थिरांक है, और k आयामीता है।

इस पद्धति में, डेटा स्थान को $\frac{d}{\sqrt[2]{k}}$ के समान पार्श्व लंबाई वाले कक्षों में विभाजित किया जाता है। प्रत्येक कोशिका के चारों ओर दो परतें होती हैं।

पहली परत एक सेल मोटी है, जबकि दूसरी $\sqrt[2]{k}$ सेल मोटी है, जो निकटतम पूर्णांक तक गोल है। एल्गोरिथम ऑब्जेक्ट-बाय-ऑब्जेक्ट के आधार पर सेल-बाय-सेल पर आउटलेर्स की गणना करता है। किसी दिए गए सेल के लिए, यह सेल में वस्तुओं की संख्या, सेल में और पहली परत में, और सेल में और दोनों परतों में एक साथ तीन गिनती जमा करता है।


  1. 3D प्रिंटिंग क्या है?

    3डी प्रिंटिंग एक निर्माण प्रक्रिया है जो एक डिजिटल फ़ाइल से त्रि-आयामी, भौतिक वस्तु बनाती है। इस प्रक्रिया को एडिटिव मैन्युफैक्चरिंग कहा जाता है, जिसका अर्थ है कि सामग्री जोड़ी जाती है, हटाई नहीं जाती। 3D प्रिंटिंग के साथ, आप एक मॉडलिंग प्रोग्राम में एक 3D डिजिटल डिज़ाइन बनाते हैं, जिसे CAD सॉफ़्टव

  1. आईपी एड्रेस क्या है?

    एक आईपी पता, इंटरनेट प्रोटोकॉल पते के लिए संक्षिप्त, एक नेटवर्क से जुड़े नेटवर्क हार्डवेयर के लिए एक पहचान संख्या है। IP पता होने से डिवाइस को इंटरनेट जैसे IP-आधारित नेटवर्क पर अन्य उपकरणों के साथ संचार करने की अनुमति मिलती है। IP पता कैसा दिखता है? अधिकांश आईपी पते इस तरह दिखते हैं: 151.101.65.

  1. विंडोज 11 एसई क्या है?

    जबकि क्रोमबुक और क्रोम ऑपरेटिंग सिस्टम ज्यादातर शैक्षिक बाजार पर हावी है, माइक्रोसॉफ्ट काफी समय से खेल के मैदान में आने और इसे समतल करने का प्रयास कर रहा है। विंडोज 11 एसई के साथ, यह ठीक वैसा ही हासिल करने का इरादा रखता है। यह ऑपरेटिंग सिस्टम K-8 कक्षाओं . के साथ बनाया गया था मन में। यह सीमित क्षमता