Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

उच्च-आयामी डेटा में बाहरी पहचान की चुनौतियां क्या हैं?

<घंटा/>

उच्च-आयामी डेटा में बाहरी पहचान की विभिन्न चुनौतियाँ इस प्रकार हैं -

आउटलेर्स की व्याख्या - उन्हें न केवल आउटलेर्स की पहचान करने में सक्षम होना चाहिए, बल्कि आउटलेर्स की व्याख्या का भी समर्थन करना चाहिए। चूंकि कई विशेषताएं (या आयाम) एक उच्च-आयामी डेटा सेट में निहित हैं, इसलिए कुछ व्याख्याओं का समर्थन किए बिना आउटलेर्स की पहचान करना कि वे आउटलेयर क्यों हैं, बहुत मददगार नहीं है।

आउटलेर्स की व्याख्या निश्चित उप-स्थानों से प्रकट हो सकती है जो आउटलेयर को प्रकट करते हैं या वस्तुओं की "बाहरीता" से संबंधित मूल्यांकन करते हैं। इस तरह की व्याख्या उपयोगकर्ताओं को बाहरी लोगों के संभावित अर्थ और महत्व को जानने में सहायता कर सकती है।

डेटा विरलता - विधियां उच्च-आयामी क्षेत्रों में विरलता को प्रबंधित करने में सक्षम होनी चाहिए। जैसे-जैसे आयाम में सुधार होता है, वस्तुओं के बीच की दूरी शोर से भारी हो जाती है। इस प्रकार, उच्च-आयामी क्षेत्रों में डेटा विरल हैं।

डेटा सबस्पेस - उदाहरण के लिए, उन्हें आउटलेर्स को उपयुक्त रूप से मॉडल करना चाहिए, उदाहरण के लिए, आउटलेर्स को इंगित करने वाले उप-स्थानों के अनुकूल होना और जानकारी का स्थानीय व्यवहार प्राप्त करना। यह आउटलेर्स की पहचान करने के लिए कुछ सबस्पेस के खिलाफ एक निश्चित दूरी की सीमा का उपयोग कर सकता है, यह सबसे अच्छा विचार नहीं है क्योंकि दो वस्तुओं के बीच की दूरी एक समान रूप से बढ़ जाती है क्योंकि आयामीता बढ़ती है।

आयामीता के संबंध में मापनीयता - जैसे-जैसे आयामीता बढ़ती है, कई उप-स्थानों में तेजी से सुधार होता है। खोज स्थान का एक विस्तृत संयोजन विश्लेषण, जिसमें कुछ संभावित उप-स्थान शामिल हैं, एक मापनीय विधि नहीं है।

उच्च-आयामी डेटा के लिए बाहरी पता लगाने के तरीकों को तीन मुख्य तरीकों में विभाजित किया जा सकता है -

पारंपरिक बाहरी पहचान का विस्तार करना - उच्च-आयामी डेटा में बाहरी पहचान के लिए एक विधि पारंपरिक बाहरी पहचान विधियों में सुधार करती है। इसे आउटलेर्स के पारंपरिक निकटता-आधारित मॉडल की आवश्यकता है। यह उच्च-आयामी स्थानों में निकटता उपायों की गिरावट को दूर कर सकता है, इसे स्थानापन्न उपायों की आवश्यकता होती है या उप-स्थानों का निर्माण करता है और वहां बाहरी लोगों का पता लगाता है।

हिलऑट एल्गोरिथ्म इस पद्धति का एक उदाहरण है। हिलऑट दूरी-आधारित आउटलेयर की खोज करता है, लेकिन बाहरी पहचान में पूर्ण दूरी के बजाय दूरी के रैंक की आवश्यकता होती है। विशेष रूप से, प्रत्येक ऑब्जेक्ट के लिए, o, HilOut, n के k-निकटतम पड़ोसियों की खोज करता है, जो nn1 द्वारा इंगित किया गया है। (ओ),...,एनएन<उप>के (ओ), जहां k एक सॉफ्टवेयर पर निर्भर पैरामीटर है।

वस्तु o के भार को

. के रूप में दर्शाया गया है

$$\mathrm{w(o) =\displaystyle\sum\limits_{i=1}^k dist(o,nn_{i}(o))}$$

उप-स्थानों में आउटलेयर ढूंढना - उच्च-आयामी डेटा में बाहरी पता लगाने के लिए दूसरी विधि कई उप-स्थानों में आउटलेयर की खोज करना है। एक विशिष्ट लाभ यह है कि, यदि किसी वस्तु को बहुत कम आयामीता के उप-स्थान में एक बाहरी के रूप में खोजा जाता है, तो उप-स्थान महत्वपूर्ण डेटा का समर्थन करता है कि क्यों और किस हद तक वस्तु एक बाहरी है। आयामों की भारी संख्या के कारण उच्च-आयामी डेटा वाले अनुप्रयोगों में यह बेहद मूल्यवान है।

उच्च-आयामी आउटलेयर मॉडलिंग - उच्च-आयामी डेटा में बाहरी पता लगाने के तरीकों के लिए एक वैकल्पिक तरीका उच्च-आयामी आउटलेर्स के लिए नए मॉडल का सटीक रूप से उत्पादन करने का प्रयास करता है।


  1. आउटलेयर क्या हैं?

    एक बाहरी एक डेटा ऑब्जेक्ट है जो अनिवार्य रूप से बाकी वस्तुओं से अलग हो जाता है, जैसे कि इसे कई तंत्र द्वारा उत्पादित किया गया था। प्रस्तुति में आसानी के लिए, यह डेटा ऑब्जेक्ट्स को सामान्य या अपेक्षित जानकारी के रूप में परिभाषित कर सकता है जो बाहरी नहीं हैं। आमतौर पर, यह आउटलेर्स को असामान्य डेटा के

  1. डेटा अखंडता के प्रकार क्या हैं?

    डेटाबेस अखंडता संग्रहीत जानकारी की वैधता और स्थिरता को परिभाषित करती है। अखंडता को आम तौर पर बाधाओं के संदर्भ में परिभाषित किया जाता है, जो स्थिरता नियम हैं जिनका डेटाबेस को उल्लंघन करने की अनुमति नहीं है। बाधाएं प्रत्येक विशेषता पर लागू हो सकती हैं या वे तालिकाओं के बीच संबंधों पर लागू हो सकती हैं।

  1. सूचना सुरक्षा में क्या चुनौतियाँ हैं?

    सूचना सुरक्षा एक स्थान से दूसरे स्थान पर भंडारण या प्रसारण की अवधि के लिए अनधिकृत पहुंच और भिन्नता से डेटा कैप्चर करने के लिए डिज़ाइन की गई प्रथाओं का एक समूह है। सूचना सुरक्षा को अनधिकृत व्यक्तियों से प्रिंट, डिजिटल और अन्य निजी, अतिसंवेदनशील और व्यक्तिगत जानकारी को सुरक्षित करने के लिए डिज़ाइन और