वर्गीकरण
एक वर्गीकरण एक डेटा-खनन दृष्टिकोण है जो अधिक कुशल भविष्यवाणियों और विश्लेषण में समर्थन के लिए डेटा के एक सेट के स्तर को अधिकृत करता है। वर्गीकरण उच्च डेटासेट के विश्लेषण को प्रभावी बनाने के लिए पूर्व निर्धारित कई विधियों में से एक है।
"वर्गीकरण" का उपयोग आम तौर पर तब किया जाता है जब द्विआधारी वर्गीकरण के रूप में ज्ञात दो लक्ष्य वर्ग होते हैं। जब दो से अधिक वर्गों की भविष्यवाणी की जा सकती है, विशेष रूप से पैटर्न पहचान के मुद्दों में, इसे बहुपद वर्गीकरण के रूप में परिभाषित किया जाता है। हालांकि, बहुराष्ट्रीय वर्गीकरण का उपयोग निश्चित प्रतिक्रिया डेटा के लिए भी किया जाता है, जहां किसी को यह अनुमान लगाने की आवश्यकता होती है कि कई श्रेणियों में से किस श्रेणी में सबसे अधिक संभावना वाले उदाहरण हैं।
डेटा माइनिंग में वर्गीकरण सबसे महत्वपूर्ण तत्व है। यह पूर्व-परिभाषित वर्ग लेबल को उनकी विशेषताओं के आधार पर उदाहरणों को निर्दिष्ट करने की प्रक्रिया को परिभाषित करता है। वर्गीकरण और क्लस्टरिंग में समानता है, यह समान दिखता है, लेकिन यह अलग है। वर्गीकरण और क्लस्टरिंग के बीच मुख्य अंतर यह है कि वर्गीकरण में पूर्व-निर्धारित समूहों में उनकी सदस्यता के अनुसार वस्तुओं को समतल करना शामिल है।
क्लस्टरिंग
भौतिक या अमूर्त वस्तुओं के समूह को समान वस्तुओं के वर्गों में संयोजित करने की प्रक्रिया को क्लस्टरिंग के रूप में जाना जाता है। क्लस्टर डेटा ऑब्जेक्ट्स का एक सेट है जो एक ही क्लस्टर के भीतर एक दूसरे के समान होते हैं और अन्य क्लस्टर में ऑब्जेक्ट्स से अलग होते हैं। डेटा ऑब्जेक्ट्स के समूह को सामूहिक रूप से कई अनुप्रयोगों में एक समूह के रूप में माना जा सकता है। क्लस्टर विश्लेषण एक आवश्यक मानवीय गतिविधि है।
क्लस्टर विश्लेषण का उपयोग इन अभिलेखों पर किए गए विभिन्न उपायों के आधार पर समान अभिलेखों के समूह या समूह बनाने के लिए किया जाता है। मुख्य डिजाइन समूहों को उन तरीकों से परिभाषित करना है जो विश्लेषण के उद्देश्य के लिए उपयोगी हो सकते हैं। इस डेटा का उपयोग कई क्षेत्रों में किया गया है, जैसे कि खगोल विज्ञान, पुरातत्व, चिकित्सा, रसायन विज्ञान, शिक्षा, मनोविज्ञान, भाषा विज्ञान और समाजशास्त्र।
विपणन में क्लस्टर विश्लेषण का एक प्रसिद्ध उपयोग बाजार विभाजन के लिए है:उपयोगकर्ताओं को जनसांख्यिकीय और लेनदेन इतिहास डेटा के आधार पर खंडित किया जाता है, और विपणन तकनीकों को प्रत्येक खंड के लिए तैयार किया जाता है।
बड़ी मात्रा में डेटा के लिए क्लस्टर विश्लेषण का उपयोग किया जा सकता है। उदाहरण के लिए, इंटरनेट खोज इंजन उपयोगकर्ता द्वारा सबमिट की गई क्वेरी को क्लस्टर करने के लिए क्लस्टरिंग विधियों का उपयोग करते हैं। फिर इनका उपयोग खोज एल्गोरिथम विकसित करने के लिए किया जा सकता है।
आम तौर पर, क्लस्टर के लिए उपयोग किया जाने वाला मूल डेटा विभिन्न चरों पर माप की एक तालिका होती है, जहां प्रत्येक कॉलम एक चर को परिभाषित करता है और एक पंक्ति एक रिकॉर्ड को परिभाषित करती है। इसका उद्देश्य डेटा के समूह बनाना है ताकि समान रिकॉर्ड एक ही समूह में हों। क्लस्टर की संख्या पूर्व-निर्दिष्ट या डेटा से तय की जा सकती है।