क्लस्टर विश्लेषण का उपयोग इन अभिलेखों पर किए गए विभिन्न उपायों के आधार पर समान अभिलेखों के समूह या समूह बनाने के लिए किया जाता है। यह समूहों को उन तरीकों से परिभाषित कर सकता है जो विश्लेषण के उद्देश्य के लिए फायदेमंद हो सकते हैं। इस डेटा का उपयोग कई क्षेत्रों में किया गया है, जैसे कि खगोल विज्ञान, पुरातत्व, चिकित्सा, रसायन विज्ञान, शिक्षा, मनोविज्ञान, भाषा विज्ञान और समाजशास्त्र।
विभिन्न प्रकार के क्लस्टर हैं जो इस प्रकार हैं -
अच्छी तरह से अलग - एक क्लस्टर वस्तुओं का एक समूह है जिसमें प्रत्येक तत्व क्लस्टर में किसी अन्य वस्तु की तुलना में क्लस्टर में हर दूसरे तत्व के करीब होता है। कभी-कभी एक थ्रेशोल्ड परिभाषित कर सकता है कि क्लस्टर में सभी ऑब्जेक्ट एक दूसरे के पर्याप्त रूप से करीब (या समान) होने चाहिए। क्लस्टर के इस विवरण की आवश्यकता तभी होती है जब डेटा में प्राकृतिक क्लस्टर शामिल होते हैं जो एक दूसरे से पूरी तरह से दूर होते हैं।
प्रोटोटाइप-आधारित - एक क्लस्टर वस्तुओं का एक समूह है जिसमें प्रत्येक वस्तु कुछ बहु समूहों के प्रोटोटाइप की तुलना में क्लस्टर का प्रतिनिधित्व करने वाले प्रोटोटाइप के करीब होती है। निरंतर विशेषताओं वाले डेटा के लिए, क्लस्टर का प्रोटोटाइप एक सेंट्रोइड होता है जैसे क्लस्टर में विभिन्न बिंदुओं का औसत (माध्य)। जब एक सेंट्रोइड महत्वहीन होता है, जब रिकॉर्ड में स्पष्ट गुण होते हैं, तो प्रोटोटाइप एक मेडॉइड होता है जैसे कि क्लस्टर का सामान्य बिंदु।
ग्राफ़-आधारित - यदि डेटा एक ग्राफ के रूप में विशिष्ट है, जहां नोड्स ऑब्जेक्ट हैं और लिंक ऑब्जेक्ट्स के बीच कनेक्शन को परिभाषित करते हैं तो क्लस्टर को एक कनेक्टेड तत्व के रूप में दर्शाया जा सकता है; यानी, वस्तुओं का एक समूह जो एक दूसरे से जुड़ा हुआ है, लेकिन इसका समूह से आगे की वस्तुओं से कोई संबंध नहीं है।
ग्राफ-आधारित समूहों के महत्वपूर्ण उदाहरण सन्निहितता-आधारित क्लस्टर हैं, जहां दो ऑब्जेक्ट केवल तभी जुड़े होते हैं जब वे एक-दूसरे की निर्दिष्ट दूरी के अंदर हों। यह इंगित करता है कि एक सन्निकट-आधारित क्लस्टर में प्रत्येक वस्तु एक से अधिक क्लस्टर में किसी बिंदु की तुलना में क्लस्टर में कई वस्तुओं के करीब है।
घनत्व-आधारित तरीके -कुछ विभाजन तकनीक वस्तुओं के बीच की दूरी के आधार पर वस्तुओं को क्लस्टर करती है। इस तरह के दृष्टिकोण केवल गोलाकार आकार के समूहों की खोज कर सकते हैं और मनमाने आकार के समूहों की खोज करने में कठिनाई का सामना कर सकते हैं। घनत्व की अवधारणा के आधार पर कई क्लस्टरिंग विधियां उत्पन्न की गई हैं।
DBSCAN एक लगातार घनत्व-आधारित विधि है जो घनत्व सीमा के अनुसार समूहों को बढ़ाती है। ऑप्टिक्स एक घनत्व-आधारित विधि है जो स्वचालित और पारस्परिक क्लस्टर विश्लेषण के लिए विस्तारित क्लस्टरिंग ऑर्डरिंग की गणना करती है।
ग्रिड-आधारित तरीके - ग्रिड-आधारित विधियाँ वस्तु क्षेत्र को परिमित कई कोशिकाओं में परिमाणित करती हैं जो एक ग्रिड संरचना बनाती हैं। कई क्लस्टरिंग सेवाएं ग्रिड संरचना (अर्थात, परिमाणित स्थान पर) पर लागू की जाती हैं।
इस दृष्टिकोण का लाभ इसका तेज़ प्रसंस्करण समय है जो अक्सर कई डेटा ऑब्जेक्ट्स से स्वतंत्र होता है और केवल परिमाणित स्थान में प्रत्येक आयाम में कई कोशिकाओं पर आधारित होता है।