भौतिक या अमूर्त वस्तुओं के समूह को समान वस्तुओं के वर्गों में संयोजित करने की प्रक्रिया को क्लस्टरिंग के रूप में जाना जाता है। क्लस्टर डेटा ऑब्जेक्ट्स का एक सेट है जो एक ही क्लस्टर के भीतर एक दूसरे के समान होते हैं और अन्य क्लस्टर में ऑब्जेक्ट्स से अलग होते हैं। डेटा ऑब्जेक्ट्स के समूह को सामूहिक रूप से कई अनुप्रयोगों में एक समूह के रूप में माना जा सकता है। क्लस्टर विश्लेषण एक आवश्यक मानवीय गतिविधि है।
क्लस्टर विश्लेषण का उपयोग इन अभिलेखों पर किए गए विभिन्न उपायों के आधार पर समान अभिलेखों के समूह या समूह बनाने के लिए किया जाता है। मुख्य डिजाइन समूहों को उन तरीकों से परिभाषित करना है जो विश्लेषण के उद्देश्य के लिए उपयोगी हो सकते हैं। इस डेटा का उपयोग कई क्षेत्रों में किया गया है, जैसे कि खगोल विज्ञान, पुरातत्व, चिकित्सा, रसायन विज्ञान, शिक्षा, मनोविज्ञान, भाषा विज्ञान और समाजशास्त्र।
क्लस्टर के विभिन्न तत्व हैं जो इस प्रकार हैं -
डेटा वितरण -कुछ क्लस्टरिंग तकनीकें डेटा के लिए एक विशिष्ट प्रकार के वितरण पर विचार करती हैं। इसके अलावा, वे इस बात पर विचार कर सकते हैं कि डेटा को वितरण के संयोजन से उत्पन्न होने के रूप में तैयार किया जा सकता है, जहां प्रत्येक क्लस्टर वितरण से संबंधित होता है।
आकार - कुछ क्लस्टर व्यवस्थित रूप से आकार के होते हैं, जैसे आयताकार या गोलाकार, लेकिन हमेशा की तरह, क्लस्टर मनमाने आकार के हो सकते हैं। DBSCAN और सिंगल लिंक सहित तकनीकें मनमाने आकार के समूहों का प्रबंधन कर सकती हैं, लेकिन प्रोटोटाइप-आधारित योजनाएं और कुछ पदानुक्रमित तकनीकें, जिनमें संपूर्ण लिंक और समूह औसत शामिल हैं, नहीं कर सकतीं।
अलग-अलग आकार - कई क्लस्टरिंग विधियां, जिनमें के-मीन्स भी शामिल हैं, अच्छी तरह से काम नहीं करती हैं, जब क्लस्टर के कई आकार होते हैं।
भिन्न घनत्व - व्यापक रूप से भिन्न घनत्व वाले क्लस्टर DBSCAN और K-means सहित विधियों के लिए समस्याएँ उत्पन्न कर सकते हैं।
खराब ढंग से अलग किए गए क्लस्टर - जब क्लस्टर स्पर्श या ओवरलैप करते हैं, तो कई क्लस्टरिंग दृष्टिकोण समूहों को जोड़ते हैं जिन्हें स्वतंत्र रखा जाना चाहिए। यहां तक कि अलग-अलग समूहों की खोज करने वाली तकनीकें भी मनमाने ढंग से एक या दूसरे क्लस्टर की ओर इशारा करती हैं।
क्लस्टर के बीच संबंध - अधिकांश क्लस्टरिंग तकनीकों में, समूहों के बीच उनकी सापेक्ष स्थिति सहित संघों पर कोई स्पष्ट विचार नहीं होता है। स्व-आयोजन मानचित्र एक क्लस्टरिंग विधि है जो क्लस्टरिंग चरण के दौरान समूहों के बीच संबंधों का सीधे इलाज करती है। इसके अलावा, एक क्लस्टर को एक बिंदु का असाइनमेंट आस-पास के समूहों की परिभाषाओं को प्रभावित करता है।
उप-स्थान क्लस्टर - क्लस्टर केवल आयामों (विशेषताओं) के सबसेट में मौजूद हो सकते हैं, और आयामों के एक सेट का उपयोग करके तय किए गए क्लस्टर दूसरे सेट का उपयोग करके तय किए गए क्लस्टर से भिन्न हो सकते हैं।
जबकि यह समस्या कम से कम दो आयामों के साथ बढ़ सकती है, यह और अधिक तीव्र हो जाती है क्योंकि आयामीता में सुधार होता है, क्योंकि आयामों के कई संभावित उपसमुच्चय आयामों की कुल संख्या में घातीय होते हैं। क्योंकि यह आयामों के सभी संभावित सबसेट में समूहों के लिए केवल देखने के लिए लागू नहीं होता है, जब तक कि कई आयाम अपेक्षाकृत कम न हों।