Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

बाहरी पहचान की चुनौतियां क्या हैं?

<घंटा/>

एक बाहरी एक डेटा ऑब्जेक्ट है जो बाकी वस्तुओं से अनिवार्य रूप से विचलित होता है, जैसे कि यह एक अलग संरचना द्वारा निर्मित किया गया हो। प्रस्तुति में आसानी के लिए, यह डेटा ऑब्जेक्ट्स को "सामान्य" या अपेक्षित जानकारी के रूप में परिभाषित कर सकता है जो बाहरी नहीं हैं। इसी तरह, यह आउटलेर्स को "असामान्य" डेटा के रूप में परिभाषित कर सकता है।

आउटलेयर डेटा घटक हैं जिन्हें किसी दिए गए वर्ग या क्लस्टर में नहीं जोड़ा जा सकता है। ये डेटा ऑब्जेक्ट हैं जिनमें विभिन्न डेटा ऑब्जेक्ट्स के सामान्य व्यवहार से कई व्यवहार होते हैं। इस तरह के डेटा का विश्लेषण मेरे ज्ञान के लिए महत्वपूर्ण हो सकता है।

बाहरी पहचान की विभिन्न चुनौतियाँ इस प्रकार हैं -

सामान्य वस्तुओं और बाहरी वस्तुओं को प्रभावी ढंग से मॉडलिंग करना - आउटलेयर डिटेक्शन एलिमेंट मोटे तौर पर सामान्य (नॉनआउटलीयर) ऑब्जेक्ट्स और आउटलेर्स के मॉडलिंग पर आधारित होता है। यह थोड़ा सा है क्योंकि किसी एप्लिकेशन में कुछ उपलब्ध सामान्य व्यवहारों की गणना करना जटिल है।

डेटा सामान्यता और असामान्यता (आउटलेयर) के बीच की सीमा स्पष्ट नहीं है। इसके बजाय, ग्रे एप्लिकेशन की एक विस्तृत श्रृंखला हो सकती है। नतीजतन, जबकि विभिन्न बाहरी पता लगाने की तकनीक इनपुट जानकारी में प्रत्येक ऑब्जेक्ट को "सामान्य" या "बाहरी" का एक लेबल सेट करती है, अन्य दृष्टिकोण प्रत्येक ऑब्जेक्ट को ऑब्जेक्ट के "आउटलेयर-नेस" की गणना करने के लिए एक स्कोर प्रदान करता है।

एप्लिकेशन-विशिष्ट बाहरी पहचान - यह समानता/दूरी माप का चयन कर रहा है और डेटा ऑब्जेक्ट को परिभाषित करने के लिए संबंध मॉडल बाहरी पहचान में आवश्यक है। दुर्भाग्य से, ऐसे विकल्प सॉफ्टवेयर पर निर्भर हैं। ऐसे कई एप्लिकेशन हैं जिनकी कई आवश्यकताएं हो सकती हैं।

बाहरी पहचान में शोर को संभालना - आउटलेयर शोर से अलग होते हैं। यह ज्ञात है कि वास्तविक सूचना की गुणवत्ता खराब होने पर प्रभाव डालती है। कई अनुप्रयोगों में एकत्र किए गए डेटा में शोर प्रदान करना अपरिहार्य रूप से मौजूद है। शोर को विशेषता मानों में विचलन के रूप में दिखाया जा सकता है या लापता मानों के रूप में चिकना किया जा सकता है।

कम डेटा गुणवत्ता और शोर का अस्तित्व बाहरी पहचान के लिए एक बड़ी चुनौती है। वे जानकारी को धोखा दे सकते हैं, सामान्य वस्तुओं और बाहरी लोगों के बीच के अंतर को धुंधला कर सकते हैं। इसके अलावा, शोर और लापता जानकारी बाहरी लोगों को "छिपा" सकती है और बाहरी पहचान की प्रभावशीलता को कम कर सकती है एक शोर बिंदु के रूप में "छिपा हुआ" हो सकता है, और एक बाहरी पहचान दृष्टिकोण गलती से शोर बिंदु को बाहरी के रूप में पहचान सकता है।

समझने योग्यता - कुछ एप्लिकेशन विधियों में, उपयोगकर्ता को न केवल आउटलेर्स का पता लगाने की आवश्यकता हो सकती है, बल्कि यह भी पता चल सकता है कि खोजी गई वस्तुएं आउटलेयर क्यों हैं। यह समझने की आवश्यकता को जोड़ सकता है, एक बाहरी पहचान तकनीक को पता लगाने के कुछ कारणों का समर्थन करना पड़ता है।

उदाहरण के लिए, एक सांख्यिकीय दृष्टिकोण का उपयोग उस डिग्री को मान्य करने के लिए किया जा सकता है जिसमें कोई वस्तु एक बाहरी हो सकती है, इस संभावना पर निर्भर करता है कि वस्तु उसी संरचना द्वारा बनाई गई थी जिसने अधिकांश रिकॉर्ड उत्पन्न किए थे। संभावना जितनी कम होगी, उतनी ही अधिक संभावना नहीं है कि वस्तु एक ही संरचना द्वारा निर्मित की गई थी, और अधिक स्वीकार्य वस्तु एक बाहरी है।


  1. डेटा अखंडता के प्रकार क्या हैं?

    डेटाबेस अखंडता संग्रहीत जानकारी की वैधता और स्थिरता को परिभाषित करती है। अखंडता को आम तौर पर बाधाओं के संदर्भ में परिभाषित किया जाता है, जो स्थिरता नियम हैं जिनका डेटाबेस को उल्लंघन करने की अनुमति नहीं है। बाधाएं प्रत्येक विशेषता पर लागू हो सकती हैं या वे तालिकाओं के बीच संबंधों पर लागू हो सकती हैं।

  1. सूचना सुरक्षा में क्या चुनौतियाँ हैं?

    सूचना सुरक्षा एक स्थान से दूसरे स्थान पर भंडारण या प्रसारण की अवधि के लिए अनधिकृत पहुंच और भिन्नता से डेटा कैप्चर करने के लिए डिज़ाइन की गई प्रथाओं का एक समूह है। सूचना सुरक्षा को अनधिकृत व्यक्तियों से प्रिंट, डिजिटल और अन्य निजी, अतिसंवेदनशील और व्यक्तिगत जानकारी को सुरक्षित करने के लिए डिज़ाइन और

  1. स्टेग्नोग्राफ़ी के आवेदन क्या हैं?

    स्टेग्नोग्राफ़ी को स्पष्ट रूप से हानिरहित संदेशों के भीतर संदेशों को एम्बेड करके डेटा छिपाने की कला और विज्ञान के रूप में भी दर्शाया गया है। स्टेग्नोग्राफ़ी नियमित कंप्यूटर फ़ाइलों में बेकार या अप्रयुक्त जानकारी के बिट्स को पुनर्स्थापित करके काम करती है। यह छिपा हुआ डेटा प्लेन टेक्स्ट या सिफर टेक्स्