Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

डेटा विशेषता क्या है?

<घंटा/>

डेटा की कुछ विशेषताएं निम्नलिखित हैं जो क्लस्टर विश्लेषण को दृढ़ता से प्रभावित कर सकती हैं जो इस प्रकार है -

उच्च आयामीता - उच्च-आयामी डेटा सेट में, घनत्व की पारंपरिक यूक्लिडियन अवधारणा, जो प्रति इकाई आयतन के कई बिंदु है, महत्वपूर्ण हो जाती है। यह माना जाता है कि जैसे-जैसे कई आयाम बढ़ते हैं, मात्रा बढ़ती जाती है, और जब तक कि कई बिंदु कई आयामों के साथ तेजी से नहीं बढ़ते, घनत्व 0 हो जाता है।

यह उच्च-आयामी क्षेत्रों में अधिक समान बनने के लिए निकटता प्रभाव भी डाल सकता है। इस तथ्य पर विचार करने का एक और तरीका यह है कि अधिक आयाम (विशेषताएं) हैं जो दो बिंदुओं के बीच निकटता में योगदान करते हैं और यह निकटता को और अधिक समान बनाता है।

चूंकि अधिकांश क्लस्टरिंग तकनीक निकटता या घनत्व पर निर्भर करती हैं, इसलिए उन्हें उच्च-आयामी जानकारी में कठिनाई हो सकती है। ऐसे मुद्दों को हल करने का एक तरीका आयामीता में कमी के तरीकों को नियोजित करना है।

आकार - कुछ क्लस्टरिंग एल्गोरिदम जो छोटे या मध्यम आकार के डेटा सेट के लिए अच्छी तरह से काम करते हैं, वे उच्च डेटा सेट को प्रबंधित करने में असमर्थ हैं।

विरलता - विरल डेटा में असममित विशेषताएँ शामिल होती हैं, जहाँ शून्य मान गैर-शून्य मानों की तरह महत्वपूर्ण नहीं होते हैं। इसलिए, असममित विशेषताओं के लिए उपयुक्त समानता उपायों का आमतौर पर उपयोग किया जाता है।

शोर और बाहरी कारक - एक सामान्य बिंदु (बाहरी) क्लस्टरिंग एल्गोरिदम के कार्यान्वयन को गंभीर रूप से खराब कर सकता है, विशेष रूप से के-साधनों सहित एल्गोरिदम जो प्रोटोटाइप-आधारित हैं। दूसरे शब्दों में, शोर एकल लिंक सहित तकनीकों को उन समूहों में शामिल करने का कारण बन सकता है जिन्हें संयोजित नहीं किया जाना चाहिए।

सामान्य मामलों में, क्लस्टरिंग एल्गोरिथम का उपयोग करने से पहले शोर और आउटलेर्स को खत्म करने के लिए एल्गोरिदम का उपयोग किया जाता है। इसके अलावा, कुछ एल्गोरिदम उन बिंदुओं की पहचान कर सकते हैं जो क्लस्टरिंग चरण के दौरान शोर और आउटलेयर को परिभाषित करते हैं और फिर उन्हें हटा देते हैं या अन्यथा उनके नकारात्मक प्रभावों को हटा देते हैं।

विशेषताओं का प्रकार और डेटा सेट - डेटा सेट कई प्रकार के हो सकते हैं, जिनमें संरचित, ग्राफ़ या क्रमित शामिल हैं, जबकि विशेषताएँ श्रेणीबद्ध (नाममात्र या क्रमिक) या मात्रात्मक (अंतराल या अनुपात) हो सकती हैं, और बाइनरी, असतत या निरंतर हैं।

एकाधिक प्रकार के डेटा के लिए एकाधिक निकटता और घनत्व माप उपयुक्त हैं। कई स्थितियों में, डेटा को विवेकपूर्ण या द्विभाजित करने की आवश्यकता हो सकती है ताकि वांछित निकटता माप या क्लस्टरिंग एल्गोरिथम का उपयोग किया जा सके।

एक और कठिनाई तब प्रकट होती है जब विशेषताएँ मोटे तौर पर कई प्रकार की होती हैं, जैसे, निरंतर और नाममात्र। इस पद्धति में, निकटता और घनत्व अधिक तदर्थ को परिभाषित करने और प्रदान करने के लिए अधिक जटिल हैं। अंत में, कुछ प्रकार के डेटा को कुशलतापूर्वक प्रबंधित करने के लिए विशिष्ट डेटा संरचनाओं और एल्गोरिदम की आवश्यकता हो सकती है।

पैमाना - कई विशेषताओं जैसे ऊंचाई और वजन को कई पैमानों पर मापा जा सकता है। ये अंतर दो वस्तुओं के बीच की दूरी या समानता को शक्तिशाली रूप से प्रभावित कर सकते हैं और, परिणामस्वरूप, क्लस्टर विश्लेषण के परिणाम। लोगों के एक समूह को उनकी ऊंचाई के आधार पर समूहबद्ध करने पर विचार करें, जिनकी गणना मीटर में की जाती है, और उनके वजन, जिनकी गणना किलोग्राम में की जाती है।


  1. डेटा सेंटर क्या है?

    एक डेटा केंद्र, जिसे कभी-कभी डेटासेंटर . के रूप में लिखा जाता है (एक शब्द), एक ऐसी सुविधा को दिया गया नाम है जिसमें बड़ी संख्या में कंप्यूटर सर्वर और संबंधित उपकरण होते हैं। एक डेटा सेंटर को कंप्यूटर रूम के रूप में सोचें जो इसकी दीवारों को बढ़ा देता है। वे किसी भी तरह का डेटा स्टोर कर सकते हैं, चाह

  1. स्टेग्नोग्राफ़ी सॉफ़्टवेयर की विशेषताएं क्या हैं?

    स्टेग्नोग्राफ़ी डेटा को छिपाने की कला और विज्ञान है, जिससे इसकी उपस्थिति की पहचान नहीं की जा सकती है और एक संचार दिखाई दे रहा है। एक गुप्त डेटा एक पहलू में एन्क्रिप्ट किया जा रहा है जैसे कि जानकारी की निरंतरता को छुपाया जाता है। स्टेग्नोग्राफ़ी सॉफ़्टवेयर में, इसे वर्तमान संचार विधियों के साथ जोड़ा

  1. MySQL क्या है? MySQL की कुछ विशेषताओं पर चर्चा करें

    MySQL, जिसे स्थानीय रूप से माई सीक्वल के रूप में जाना जाता है, एक ओपन सोर्स SQL ​​(स्ट्रक्चर्ड क्वेरी लैंग्वेज) डेटाबेस मैनेजमेंट सिस्टम है। SQL एक ऐसी भाषा है जिसका उपयोग डेटाबेस तक पहुँचने और उसके साथ काम करने के लिए किया जाता है। SQL को ANSI/ISO SQL मानक का उपयोग करके परिभाषित किया गया है। SQL मा