Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

डेटा माइनिंग में क्लस्टर कितने प्रकार के होते हैं?

<घंटा/>

क्लस्टर विश्लेषण का उपयोग इन अभिलेखों पर किए गए विभिन्न उपायों के आधार पर समान अभिलेखों के समूह या समूह बनाने के लिए किया जाता है। यह समूहों को उन तरीकों से परिभाषित कर सकता है जो विश्लेषण के उद्देश्य के लिए फायदेमंद हो सकते हैं। इस डेटा का उपयोग कई क्षेत्रों में किया गया है, जैसे कि खगोल विज्ञान, पुरातत्व, चिकित्सा, रसायन विज्ञान, शिक्षा, मनोविज्ञान, भाषा विज्ञान और समाजशास्त्र।

विभिन्न प्रकार के क्लस्टर हैं जो इस प्रकार हैं -

अच्छी तरह से अलग - एक क्लस्टर वस्तुओं का एक समूह है जिसमें प्रत्येक तत्व क्लस्टर में किसी अन्य वस्तु की तुलना में क्लस्टर में हर दूसरे तत्व के करीब होता है। कभी-कभी एक थ्रेशोल्ड परिभाषित कर सकता है कि क्लस्टर में सभी ऑब्जेक्ट एक दूसरे के पर्याप्त रूप से करीब (या समान) होने चाहिए। क्लस्टर के इस विवरण की आवश्यकता तभी होती है जब डेटा में प्राकृतिक क्लस्टर शामिल होते हैं जो एक दूसरे से पूरी तरह से दूर होते हैं।

प्रोटोटाइप-आधारित - एक क्लस्टर वस्तुओं का एक समूह है जिसमें प्रत्येक वस्तु कुछ बहु समूहों के प्रोटोटाइप की तुलना में क्लस्टर का प्रतिनिधित्व करने वाले प्रोटोटाइप के करीब होती है। निरंतर विशेषताओं वाले डेटा के लिए, क्लस्टर का प्रोटोटाइप एक सेंट्रोइड होता है जैसे क्लस्टर में विभिन्न बिंदुओं का औसत (माध्य)। जब एक सेंट्रोइड महत्वहीन होता है, जब रिकॉर्ड में स्पष्ट गुण होते हैं, तो प्रोटोटाइप एक मेडॉइड होता है जैसे कि क्लस्टर का सामान्य बिंदु।

ग्राफ़-आधारित - यदि डेटा एक ग्राफ के रूप में विशिष्ट है, जहां नोड्स ऑब्जेक्ट हैं और लिंक ऑब्जेक्ट्स के बीच कनेक्शन को परिभाषित करते हैं तो क्लस्टर को एक कनेक्टेड तत्व के रूप में दर्शाया जा सकता है; यानी, वस्तुओं का एक समूह जो एक दूसरे से जुड़ा हुआ है, लेकिन इसका समूह से आगे की वस्तुओं से कोई संबंध नहीं है।

ग्राफ-आधारित समूहों के महत्वपूर्ण उदाहरण सन्निहितता-आधारित क्लस्टर हैं, जहां दो ऑब्जेक्ट केवल तभी जुड़े होते हैं जब वे एक-दूसरे की निर्दिष्ट दूरी के अंदर हों। यह इंगित करता है कि एक सन्निकट-आधारित क्लस्टर में प्रत्येक वस्तु एक से अधिक क्लस्टर में किसी बिंदु की तुलना में क्लस्टर में कई वस्तुओं के करीब है।

घनत्व-आधारित तरीके -कुछ विभाजन तकनीक वस्तुओं के बीच की दूरी के आधार पर वस्तुओं को क्लस्टर करती है। इस तरह के दृष्टिकोण केवल गोलाकार आकार के समूहों की खोज कर सकते हैं और मनमाने आकार के समूहों की खोज करने में कठिनाई का सामना कर सकते हैं। घनत्व की अवधारणा के आधार पर कई क्लस्टरिंग विधियां उत्पन्न की गई हैं।

DBSCAN एक लगातार घनत्व-आधारित विधि है जो घनत्व सीमा के अनुसार समूहों को बढ़ाती है। ऑप्टिक्स एक घनत्व-आधारित विधि है जो स्वचालित और पारस्परिक क्लस्टर विश्लेषण के लिए विस्तारित क्लस्टरिंग ऑर्डरिंग की गणना करती है।

ग्रिड-आधारित तरीके - ग्रिड-आधारित विधियाँ वस्तु क्षेत्र को परिमित कई कोशिकाओं में परिमाणित करती हैं जो एक ग्रिड संरचना बनाती हैं। कई क्लस्टरिंग सेवाएं ग्रिड संरचना (अर्थात, परिमाणित स्थान पर) पर लागू की जाती हैं।

इस दृष्टिकोण का लाभ इसका तेज़ प्रसंस्करण समय है जो अक्सर कई डेटा ऑब्जेक्ट्स से स्वतंत्र होता है और केवल परिमाणित स्थान में प्रत्येक आयाम में कई कोशिकाओं पर आधारित होता है।


  1. खनन अनुक्रम डेटा के प्रकार क्या हैं?

    अनुक्रम घटनाओं की एक क्रमबद्ध सूची है। घटनाओं की विशेषताओं के आधार पर अनुक्रमों को तीन समूहों में विभाजित किया जा सकता है, जिन्हें वे निम्नानुसार परिभाषित करते हैं - समय-श्रृंखला डेटा में समानता खोज एक समय-श्रृंखला डेटा सेट में समय की बार-बार गणना पर प्राप्त पूर्णांक मानों के अनुक्रम शामिल होते ह

  1. डेटा माइनिंग में आउटलेयर कितने प्रकार के होते हैं?

    डेटा माइनिंग में विभिन्न प्रकार के आउटलेयर हैं जो इस प्रकार हैं - वैश्विक आउटलेयर - किसी दिए गए डेटा सेट में, एक डेटा ऑब्जेक्ट एक वैश्विक बाहरी होता है यदि वह बाकी जानकारी सेट से अनिवार्य रूप से विचलित हो जाता है। वैश्विक आउटलेयर को बिंदु विसंगतियों के रूप में जाना जाता है, और सबसे आसान प्रकार के आ

  1. डेटा अखंडता के प्रकार क्या हैं?

    डेटाबेस अखंडता संग्रहीत जानकारी की वैधता और स्थिरता को परिभाषित करती है। अखंडता को आम तौर पर बाधाओं के संदर्भ में परिभाषित किया जाता है, जो स्थिरता नियम हैं जिनका डेटाबेस को उल्लंघन करने की अनुमति नहीं है। बाधाएं प्रत्येक विशेषता पर लागू हो सकती हैं या वे तालिकाओं के बीच संबंधों पर लागू हो सकती हैं।