डेटा माइनिंग में क्लस्टरिंग की क्या आवश्यकताएं हैं?

<घंटा/>

डेटा माइनिंग में क्लस्टरिंग की निम्नलिखित आवश्यकताएं हैं जो इस प्रकार हैं -

मापनीयता -कुछ क्लस्टरिंग एल्गोरिदम कुछ सौ से कम डेटा ऑब्जेक्ट सहित छोटे डेटा सेट पर अच्छी तरह से काम करते हैं। एक विशाल डेटाबेस में लाखों ऑब्जेक्ट शामिल हो सकते हैं। किसी दिए गए विशाल डेटा सेट के नमूने पर क्लस्टरिंग से आंशिक परिणाम हो सकते हैं। अत्यधिक स्केलेबल क्लस्टरिंग एल्गोरिदम आवश्यक हैं।

विभिन्न प्रकार की विशेषताओं से निपटने की क्षमता -कुछ एल्गोरिदम को अंतराल-आधारित (संख्यात्मक) जानकारी को क्लस्टर करने के लिए डिज़ाइन किया गया है। हालांकि, अनुप्रयोगों को बाइनरी, श्रेणीबद्ध (नाममात्र), और क्रमिक डेटा, या इन डेटा प्रकारों के संयोजन सहित कई प्रकार के डेटा को क्लस्टर करने की आवश्यकता हो सकती है।

मनमाने आकार वाले समूहों की खोज - कुछ क्लस्टरिंग एल्गोरिदम यूक्लिडियन या मैनहट्टन दूरी के उपायों के आधार पर क्लस्टर निर्धारित करते हैं। ऐसे दूरी उपायों पर निर्भर एल्गोरिदम समान आकार और घनत्व वाले गोलाकार समूहों की खोज करते हैं। लेकिन, क्लस्टर किसी भी आकार का हो सकता है। ऐसे एल्गोरिदम विकसित करना आवश्यक है जो मनमाने आकार के समूहों को पहचान सकें।

इनपुट पैरामीटर निर्धारित करने के लिए डोमेन ज्ञान की न्यूनतम आवश्यकताएं - कुछ क्लस्टरिंग एल्गोरिदम को क्लस्टर विश्लेषण (वांछित क्लस्टर की संख्या सहित) में विशिष्ट मापदंडों को इनपुट करने के लिए उपयोगकर्ताओं की आवश्यकता होती है। क्लस्टरिंग परिणाम इनपुट मापदंडों के प्रति बिल्कुल संवेदनशील हो सकते हैं। पैरामीटर तय करना मुश्किल है, विशेष रूप से उच्च-आयामी वस्तुओं सहित डेटा सेट के लिए। यह न केवल उपयोगकर्ताओं को कार्य करता है, बल्कि यह क्लस्टरिंग की गुणवत्ता को नियंत्रित करना भी मुश्किल बनाता है।

शोरगुल वाले डेटा से निपटने की क्षमता - अधिकांश वास्तविक दुनिया के डेटाबेस में बाहरी या लापता, अज्ञात या गलत जानकारी शामिल होती है। कुछ क्लस्टरिंग एल्गोरिदम ऐसे डेटा के लिए उत्सुक हैं और खराब गुणवत्ता वाले समूहों को जन्म दे सकते हैं।

इंक्रीमेंटल क्लस्टरिंग और इनपुट रिकॉर्ड के क्रम के प्रति असंवेदनशीलता - कुछ क्लस्टरिंग एल्गोरिदम में नई सम्मिलित जानकारी (यानी, डेटाबेस अपडेट) को वर्तमान क्लस्टरिंग संरचनाओं में शामिल नहीं किया जा सकता है और इसके बजाय, नए क्लस्टरिंग को शुरू से तय करना चाहिए।

कुछ क्लस्टरिंग एल्गोरिदम इनपुट रिकॉर्ड के क्रम के प्रति संवेदनशील होते हैं। एल्गोरिथम सहित डेटा ऑब्जेक्ट्स के एक सेट को देखते हुए, इनपुट ऑब्जेक्ट्स की प्रस्तुति के क्रम के आधार पर नाटकीय रूप से अलग-अलग क्लस्टरिंग लौटा सकते हैं। वृद्धिशील क्लस्टरिंग एल्गोरिदम और एल्गोरिदम विकसित करना आवश्यक है जो इनपुट के क्रम के प्रति असंवेदनशील हैं।

उच्च आयामीता - एक डेटाबेस या डेटा वेयरहाउस में कई आयाम या विशेषताएँ शामिल हो सकती हैं। कुछ क्लस्टरिंग एल्गोरिदम निम्न-आयामी डेटा के प्रबंधन में अच्छे होते हैं, जिसमें केवल दो से तीन आयाम होते हैं। मानव आंखें तीन आयामों तक क्लस्टरिंग की गुणवत्ता निर्धारित करने में सर्वश्रेष्ठ हैं। इसका उपयोग उच्च-आयामी अंतरिक्ष में डेटा ऑब्जेक्ट के समूहों को खोजने के लिए किया जाता है, विशेष रूप से यह मानते हुए कि ऐसा डेटा अपर्याप्त और अत्यधिक विषम हो सकता है।