क्लस्टरिंग के विभिन्न अनुप्रयोग हैं जो इस प्रकार हैं -
-
मापनीयता - कुछ क्लस्टरिंग एल्गोरिदम 200 से कम डेटा ऑब्जेक्ट सहित छोटे डेटा सेट में अच्छी तरह से काम करते हैं; हालाँकि, एक विशाल डेटाबेस में लाखों ऑब्जेक्ट शामिल हो सकते हैं। किसी दिए गए विशाल डेटा सेट के नमूने पर क्लस्टरिंग से पक्षपाती परिणाम हो सकते हैं। अत्यधिक स्केलेबल क्लस्टरिंग एल्गोरिदम की आवश्यकता होती है।
-
विभिन्न प्रकार की विशेषताओं से निपटने की क्षमता -कुछ एल्गोरिदम को अंतराल-आधारित (संख्यात्मक) रिकॉर्ड को क्लस्टर करने के लिए डिज़ाइन किया गया है। हालांकि, अनुप्रयोगों को बाइनरी, श्रेणीबद्ध (नाममात्र), और क्रमिक डेटा, या इन डेटा प्रकारों के संयोजन सहित कई प्रकार के डेटा को क्लस्टर करने की आवश्यकता हो सकती है।
-
मनमाने आकार वाले समूहों की खोज - कुछ क्लस्टरिंग एल्गोरिदम यूक्लिडियन या मैनहट्टन दूरी के उपायों के आधार पर क्लस्टर निर्धारित करते हैं। इस तरह के दूरी उपायों के आधार पर एल्गोरिदम समान आकार और घनत्व वाले गोलाकार समूहों की खोज करते हैं। हालाँकि, एक क्लस्टर किसी भी आकार का हो सकता है। ऐसे एल्गोरिदम विकसित करना आवश्यक है जो मनमाने आकार के समूहों की पहचान कर सकें।
-
इनपुट पैरामीटर निर्धारित करने के लिए डोमेन ज्ञान की न्यूनतम आवश्यकताएं - कुछ क्लस्टरिंग एल्गोरिदम को क्लस्टर विश्लेषण (वांछित क्लस्टर की संख्या सहित) में विशिष्ट मापदंडों को इनपुट करने के लिए उपयोगकर्ताओं की आवश्यकता होती है। क्लस्टरिंग परिणाम इनपुट मापदंडों के प्रति काफी संवेदनशील होते हैं। पैरामीटर तय करना कठिन है, विशेष रूप से उच्च-आयामी वस्तुओं सहित डेटा सेट के लिए। यह न केवल उपयोगकर्ताओं पर बोझ डालता है बल्कि क्लस्टरिंग की गुणवत्ता को नियंत्रित करना कठिन बनाता है।
-
शोरगुल वाले डेटा से निपटने की क्षमता - कुछ वास्तविक दुनिया के डेटाबेस में आउटलेयर या लापता, अज्ञात या गलत रिकॉर्ड शामिल हैं। कुछ क्लस्टरिंग एल्गोरिदम ऐसे डेटा के प्रति संवेदनशील होते हैं और खराब गुणवत्ता वाले समूहों को जन्म दे सकते हैं।
-
इनपुट रिकॉर्ड के क्रम के प्रति असंवेदनशीलता - कुछ क्लस्टरिंग एल्गोरिदम इनपुट डेटा के क्रम के लिए उत्तरदायी होते हैं, उदाहरण के लिए, डेटा का समान सेट, जब ऐसे एल्गोरिदम के लिए कई ऑर्डरिंग के साथ प्रस्तुत किया जाता है, और यह नाटकीय रूप से भिन्न क्लस्टर उत्पन्न कर सकता है। ऐसे एल्गोरिदम विकसित करना आवश्यक है जो इनपुट के क्रम के प्रति अनुत्तरदायी हों।
-
उच्च आयामीता - एक डेटाबेस या डेटा वेयरहाउस में कई आयाम या विशेषताएँ शामिल हो सकती हैं। कुछ क्लस्टरिंग एल्गोरिदम निम्न-आयामी डेटा के प्रबंधन में सर्वश्रेष्ठ होते हैं, जिसमें केवल दो से तीन आयाम होते हैं। मानव आंखें तीन आयामों तक क्लस्टरिंग की गुणवत्ता निर्धारित करने में सर्वश्रेष्ठ हैं। यह उच्च-आयामी अंतरिक्ष में डेटा ऑब्जेक्ट को क्लस्टर करने के लिए विवादित है, विशेष रूप से यह देखते हुए कि उच्च-आयामी अंतरिक्ष में डेटा बहुत अपर्याप्त और अत्यधिक गलत तरीके से प्रस्तुत किया जा सकता है।
-
प्रतिबंध-आधारित क्लस्टरिंग - कई प्रकार की बाधाओं के तहत क्लस्टरिंग करने के लिए वास्तविक दुनिया के अनुप्रयोगों की आवश्यकता हो सकती है। इस बात पर विचार करें कि आपका काम किसी शहर में दिए गए नए स्वचालित कैश स्टेशनों (एटीएम) की एक निश्चित संख्या के लिए क्षेत्रों का चयन करना है।