Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

डेटा माइनिंग में क्लस्टरिंग की क्या आवश्यकताएं हैं?

<घंटा/>

डेटा माइनिंग में क्लस्टरिंग की निम्नलिखित आवश्यकताएं हैं जो इस प्रकार हैं -

मापनीयता -कुछ क्लस्टरिंग एल्गोरिदम कुछ सौ से कम डेटा ऑब्जेक्ट सहित छोटे डेटा सेट पर अच्छी तरह से काम करते हैं। एक विशाल डेटाबेस में लाखों ऑब्जेक्ट शामिल हो सकते हैं। किसी दिए गए विशाल डेटा सेट के नमूने पर क्लस्टरिंग से आंशिक परिणाम हो सकते हैं। अत्यधिक स्केलेबल क्लस्टरिंग एल्गोरिदम आवश्यक हैं।

विभिन्न प्रकार की विशेषताओं से निपटने की क्षमता -कुछ एल्गोरिदम को अंतराल-आधारित (संख्यात्मक) जानकारी को क्लस्टर करने के लिए डिज़ाइन किया गया है। हालांकि, अनुप्रयोगों को बाइनरी, श्रेणीबद्ध (नाममात्र), और क्रमिक डेटा, या इन डेटा प्रकारों के संयोजन सहित कई प्रकार के डेटा को क्लस्टर करने की आवश्यकता हो सकती है।

मनमाने आकार वाले समूहों की खोज - कुछ क्लस्टरिंग एल्गोरिदम यूक्लिडियन या मैनहट्टन दूरी के उपायों के आधार पर क्लस्टर निर्धारित करते हैं। ऐसे दूरी उपायों पर निर्भर एल्गोरिदम समान आकार और घनत्व वाले गोलाकार समूहों की खोज करते हैं। लेकिन, क्लस्टर किसी भी आकार का हो सकता है। ऐसे एल्गोरिदम विकसित करना आवश्यक है जो मनमाने आकार के समूहों को पहचान सकें।

इनपुट पैरामीटर निर्धारित करने के लिए डोमेन ज्ञान की न्यूनतम आवश्यकताएं - कुछ क्लस्टरिंग एल्गोरिदम को क्लस्टर विश्लेषण (वांछित क्लस्टर की संख्या सहित) में विशिष्ट मापदंडों को इनपुट करने के लिए उपयोगकर्ताओं की आवश्यकता होती है। क्लस्टरिंग परिणाम इनपुट मापदंडों के प्रति बिल्कुल संवेदनशील हो सकते हैं। पैरामीटर तय करना मुश्किल है, विशेष रूप से उच्च-आयामी वस्तुओं सहित डेटा सेट के लिए। यह न केवल उपयोगकर्ताओं को कार्य करता है, बल्कि यह क्लस्टरिंग की गुणवत्ता को नियंत्रित करना भी मुश्किल बनाता है।

शोरगुल वाले डेटा से निपटने की क्षमता - अधिकांश वास्तविक दुनिया के डेटाबेस में बाहरी या लापता, अज्ञात या गलत जानकारी शामिल होती है। कुछ क्लस्टरिंग एल्गोरिदम ऐसे डेटा के लिए उत्सुक हैं और खराब गुणवत्ता वाले समूहों को जन्म दे सकते हैं।

इंक्रीमेंटल क्लस्टरिंग और इनपुट रिकॉर्ड के क्रम के प्रति असंवेदनशीलता - कुछ क्लस्टरिंग एल्गोरिदम में नई सम्मिलित जानकारी (यानी, डेटाबेस अपडेट) को वर्तमान क्लस्टरिंग संरचनाओं में शामिल नहीं किया जा सकता है और इसके बजाय, नए क्लस्टरिंग को शुरू से तय करना चाहिए।

कुछ क्लस्टरिंग एल्गोरिदम इनपुट रिकॉर्ड के क्रम के प्रति संवेदनशील होते हैं। एल्गोरिथम सहित डेटा ऑब्जेक्ट्स के एक सेट को देखते हुए, इनपुट ऑब्जेक्ट्स की प्रस्तुति के क्रम के आधार पर नाटकीय रूप से अलग-अलग क्लस्टरिंग लौटा सकते हैं। वृद्धिशील क्लस्टरिंग एल्गोरिदम और एल्गोरिदम विकसित करना आवश्यक है जो इनपुट के क्रम के प्रति असंवेदनशील हैं।

उच्च आयामीता - एक डेटाबेस या डेटा वेयरहाउस में कई आयाम या विशेषताएँ शामिल हो सकती हैं। कुछ क्लस्टरिंग एल्गोरिदम निम्न-आयामी डेटा के प्रबंधन में अच्छे होते हैं, जिसमें केवल दो से तीन आयाम होते हैं। मानव आंखें तीन आयामों तक क्लस्टरिंग की गुणवत्ता निर्धारित करने में सर्वश्रेष्ठ हैं। इसका उपयोग उच्च-आयामी अंतरिक्ष में डेटा ऑब्जेक्ट के समूहों को खोजने के लिए किया जाता है, विशेष रूप से यह मानते हुए कि ऐसा डेटा अपर्याप्त और अत्यधिक विषम हो सकता है।


  1. डेटा माइनिंग में OLAP टूल्स क्या हैं?

    OLAP टूल की तीन मुख्य श्रेणियां हैं जो इस प्रकार हैं - मोलैप - MOLAP बहुआयामी OLAP का प्रतिनिधित्व करता है। यह डेटा स्टोरेज यूनिट के रूप में टुपल्स को सपोर्ट करता है। MOLAP डेटा को संभालने के लिए एक समर्पित n-आयामी सरणी भंडारण इंजन और OLAP मिडलवेयर लागू करता है। इसलिए, OLAP प्रश्नों को संबंधित बहुआ

  1. वेब माइनिंग के तरीके क्या हैं?

    वेब माइनिंग सीखने या ज्ञान प्राप्त करने के लक्ष्यों के लिए वेब-आधारित डेटा के लिए मशीन लर्निंग (डेटा माइनिंग) दृष्टिकोण का अनुप्रयोग है। वेब माइनिंग के तरीकों को तीन अलग-अलग तत्वों में से एक में परिभाषित किया जा सकता है जो इस प्रकार हैं - वेब उपयोग खनन - वेब यूसेज माइनिंग एक तरह का वेब माइनिंग है ज

  1. स्थानिक डेटा माइनिंग की मूल बातें क्या हैं?

    स्थानिक डेटा माइनिंग स्थानिक मॉडल के लिए डेटा माइनिंग का अनुप्रयोग है। स्थानिक डेटा माइनिंग में, विश्लेषक भौगोलिक या स्थानिक डेटा का उपयोग व्यावसायिक खुफिया या अलग-अलग परिणाम बनाने के लिए करते हैं। भौगोलिक डेटा को प्रासंगिक और लाभकारी स्वरूपों में लाने के लिए इसके लिए विशिष्ट विधियों और संसाधनों की