Computer >> कंप्यूटर ट्यूटोरियल >  >> प्रोग्रामिंग >> प्रोग्रामिंग

उच्च-आयामी डेटा में बाहरी पहचान की चुनौतियां क्या हैं?

<घंटा/>

उच्च-आयामी डेटा में बाहरी पहचान की विभिन्न चुनौतियाँ इस प्रकार हैं -

आउटलेर्स की व्याख्या - उन्हें न केवल आउटलेर्स की पहचान करने में सक्षम होना चाहिए, बल्कि आउटलेर्स की व्याख्या का भी समर्थन करना चाहिए। चूंकि कई विशेषताएं (या आयाम) एक उच्च-आयामी डेटा सेट में निहित हैं, इसलिए कुछ व्याख्याओं का समर्थन किए बिना आउटलेर्स की पहचान करना कि वे आउटलेयर क्यों हैं, बहुत मददगार नहीं है।

आउटलेर्स की व्याख्या निश्चित उप-स्थानों से प्रकट हो सकती है जो आउटलेयर को प्रकट करते हैं या वस्तुओं की "बाहरीता" से संबंधित मूल्यांकन करते हैं। इस तरह की व्याख्या उपयोगकर्ताओं को बाहरी लोगों के संभावित अर्थ और महत्व को जानने में सहायता कर सकती है।

डेटा विरलता - विधियां उच्च-आयामी क्षेत्रों में विरलता को प्रबंधित करने में सक्षम होनी चाहिए। जैसे-जैसे आयाम में सुधार होता है, वस्तुओं के बीच की दूरी शोर से भारी हो जाती है। इस प्रकार, उच्च-आयामी क्षेत्रों में डेटा विरल हैं।

डेटा सबस्पेस - उदाहरण के लिए, उन्हें आउटलेर्स को उपयुक्त रूप से मॉडल करना चाहिए, उदाहरण के लिए, आउटलेर्स को इंगित करने वाले उप-स्थानों के अनुकूल होना और जानकारी का स्थानीय व्यवहार प्राप्त करना। यह आउटलेर्स की पहचान करने के लिए कुछ सबस्पेस के खिलाफ एक निश्चित दूरी की सीमा का उपयोग कर सकता है, यह सबसे अच्छा विचार नहीं है क्योंकि दो वस्तुओं के बीच की दूरी एक समान रूप से बढ़ जाती है क्योंकि आयामीता बढ़ती है।

आयामीता के संबंध में मापनीयता - जैसे-जैसे आयामीता बढ़ती है, कई उप-स्थानों में तेजी से सुधार होता है। खोज स्थान का एक विस्तृत संयोजन विश्लेषण, जिसमें कुछ संभावित उप-स्थान शामिल हैं, एक मापनीय विधि नहीं है।

उच्च-आयामी डेटा के लिए बाहरी पता लगाने के तरीकों को तीन मुख्य तरीकों में विभाजित किया जा सकता है -

पारंपरिक बाहरी पहचान का विस्तार करना - उच्च-आयामी डेटा में बाहरी पहचान के लिए एक विधि पारंपरिक बाहरी पहचान विधियों में सुधार करती है। इसे आउटलेर्स के पारंपरिक निकटता-आधारित मॉडल की आवश्यकता है। यह उच्च-आयामी स्थानों में निकटता उपायों की गिरावट को दूर कर सकता है, इसे स्थानापन्न उपायों की आवश्यकता होती है या उप-स्थानों का निर्माण करता है और वहां बाहरी लोगों का पता लगाता है।

हिलऑट एल्गोरिथ्म इस पद्धति का एक उदाहरण है। हिलऑट दूरी-आधारित आउटलेयर की खोज करता है, लेकिन बाहरी पहचान में पूर्ण दूरी के बजाय दूरी के रैंक की आवश्यकता होती है। विशेष रूप से, प्रत्येक ऑब्जेक्ट के लिए, o, HilOut, n के k-निकटतम पड़ोसियों की खोज करता है, जो nn1 द्वारा इंगित किया गया है। (ओ),...,एनएन<उप>के (ओ), जहां k एक सॉफ्टवेयर पर निर्भर पैरामीटर है।

वस्तु o के भार को

. के रूप में दर्शाया गया है

$$\mathrm{w(o) =\displaystyle\sum\limits_{i=1}^k dist(o,nn_{i}(o))}$$

उप-स्थानों में आउटलेयर ढूंढना - उच्च-आयामी डेटा में बाहरी पता लगाने के लिए दूसरी विधि कई उप-स्थानों में आउटलेयर की खोज करना है। एक विशिष्ट लाभ यह है कि, यदि किसी वस्तु को बहुत कम आयामीता के उप-स्थान में एक बाहरी के रूप में खोजा जाता है, तो उप-स्थान महत्वपूर्ण डेटा का समर्थन करता है कि क्यों और किस हद तक वस्तु एक बाहरी है। आयामों की भारी संख्या के कारण उच्च-आयामी डेटा वाले अनुप्रयोगों में यह बेहद मूल्यवान है।

उच्च-आयामी आउटलेयर मॉडलिंग - उच्च-आयामी डेटा में बाहरी पता लगाने के तरीकों के लिए एक वैकल्पिक तरीका उच्च-आयामी आउटलेर्स के लिए नए मॉडल का सटीक रूप से उत्पादन करने का प्रयास करता है।


  1. - आउटलेयर क्या हैं?

    एक बाहरी एक डेटा ऑब्जेक्ट है जो अनिवार्य रूप से बाकी वस्तुओं से अलग हो जाता है, जैसे कि इसे कई तंत्र द्वारा उत्पादित किया गया था। प्रस्तुति में आसानी के लिए, यह डेटा ऑब्जेक्ट्स को सामान्य या अपेक्षित जानकारी के रूप में परिभाषित कर सकता है जो बाहरी नहीं हैं। आमतौर पर, यह आउटलेर्स को असामान्य डेटा के

  1. - डेटा अखंडता के प्रकार क्या हैं?

    डेटाबेस अखंडता संग्रहीत जानकारी की वैधता और स्थिरता को परिभाषित करती है। अखंडता को आम तौर पर बाधाओं के संदर्भ में परिभाषित किया जाता है, जो स्थिरता नियम हैं जिनका डेटाबेस को उल्लंघन करने की अनुमति नहीं है। बाधाएं प्रत्येक विशेषता पर लागू हो सकती हैं या वे तालिकाओं के बीच संबंधों पर लागू हो सकती हैं।

  1. - सूचना सुरक्षा में क्या चुनौतियाँ हैं?

    सूचना सुरक्षा एक स्थान से दूसरे स्थान पर भंडारण या प्रसारण की अवधि के लिए अनधिकृत पहुंच और भिन्नता से डेटा कैप्चर करने के लिए डिज़ाइन की गई प्रथाओं का एक समूह है। सूचना सुरक्षा को अनधिकृत व्यक्तियों से प्रिंट, डिजिटल और अन्य निजी, अतिसंवेदनशील और व्यक्तिगत जानकारी को सुरक्षित करने के लिए डिज़ाइन और