मॉडल-आधारित क्लस्टरिंग डेटा क्लस्टरिंग के लिए एक सांख्यिकीय दृष्टिकोण है। माना जाता है कि देखे गए (बहुभिन्नरूपी) डेटा को घटक मॉडल के एक सीमित संयोजन से बनाया गया है। प्रत्येक घटक मॉडल एक संभाव्यता वितरण है, आम तौर पर एक पैरामीट्रिक बहुभिन्नरूपी वितरण।
उदाहरण के लिए, एक बहुभिन्नरूपी गाऊसी मिश्रण मॉडल में, प्रत्येक घटक एक बहुभिन्नरूपी गाऊसी वितरण है। किसी विशेष अवलोकन को उत्पन्न करने के लिए जिम्मेदार घटक उस समूह को निर्धारित करता है जिससे अवलोकन संबंधित है।
मॉडल-आधारित क्लस्टरिंग दिए गए डेटा और कुछ गणितीय मॉडल के बीच फिट को आगे बढ़ाने का एक प्रयास है और यह इस धारणा पर आधारित है कि डेटा एक बुनियादी संभाव्यता वितरण के संयोजन से बनाया गया है।
निम्नलिखित प्रकार के मॉडल-आधारित क्लस्टरिंग इस प्रकार हैं -
सांख्यिकीय दृष्टिकोण - एक्सपेक्टेशन मैक्सिमाइजेशन एक लोकप्रिय पुनरावृत्त शोधन एल्गोरिथम है। k-means का विस्तार -
-
यह वजन (संभाव्यता वितरण) के अनुसार प्रत्येक ऑब्जेक्ट को क्लस्टर में असाइन कर सकता है।
-
वजन माप के आधार पर नए साधनों की गणना की जाती है।
मूल विचार इस प्रकार है -
-
यह पैरामीटर वेक्टर के प्रारंभिक अनुमान से शुरू हो सकता है।
-
इसका उपयोग पैरामीटर वेक्टर द्वारा बनाए गए मिश्रण घनत्व के विरुद्ध डिज़ाइनों को पुनरावृत्त रूप से पुन:स्थापित करने के लिए किया जा सकता है।
-
इसका उपयोग पुन:रिकॉर्ड किए गए पैटर्न के लिए किया जाता है जिसका उपयोग पैरामीटर अनुमानों को अपडेट करने के लिए किया जाता है।
-
इसका उपयोग उसी क्लस्टर से संबंधित पैटर्न के लिए किया जा सकता है यदि उन्हें किसी विशेष घटक में उनके स्कोर द्वारा रखा जाता है।
एल्गोरिदम
-
प्रारंभ में, k क्लस्टर केंद्रों को यादृच्छिक रूप से असाइन करें।
-
इसे पुनरावृत्त रूप से परिष्कृत किया जा सकता है दो चरणों के आधार पर क्लस्टर इस प्रकार हैं -
उम्मीद कदम - यह प्रत्येक डेटा बिंदु Xi . असाइन कर सकता है Ci . को क्लस्टर करने के लिए निम्नलिखित संभावना के साथ
$$\mathrm{P(X_{i}\in\:C_{k})\:=\:P(C_k\arrowvert\:X_i)\:=\:\frac{P(C_k)P(X_i\ एरोवर्ट\:C_k)}{P(X_i)}}$$
अधिकतमकरण चरण - इसका उपयोग मॉडल पैरामीटर का अनुमान लगाने के लिए किया जा सकता है
$$\mathrm{m_k\:=\:\frac{1}{N}\displaystyle\sum\limits_{i=1}^N \frac{X_{i}P(X_i\:\in\:C_k) }{X_{j}P(X_i)\in\:C_j}}$$
मशीन सीखने का तरीका - मशीन लर्निंग एक ऐसा दृष्टिकोण है जो विशाल डेटा प्रोसेसिंग के लिए जटिल एल्गोरिदम बनाता है और अपने उपयोगकर्ताओं को परिणामों का समर्थन करता है। यह जटिल कार्यक्रमों का उपयोग करता है जो अनुभव के माध्यम से समझ सकते हैं और भविष्यवाणियां कर सकते हैं।
प्रशिक्षण जानकारी के लगातार इनपुट द्वारा एल्गोरिदम में सुधार किया जाता है। मशीन लर्निंग का मुख्य उद्देश्य डेटा सीखना और डेटा से ऐसे मॉडल बनाना है जिन्हें इंसान समझ सकें और इस्तेमाल कर सकें।
यह वृद्धिशील वैचारिक शिक्षा का एक प्रसिद्ध दृष्टिकोण है, जो एक वर्गीकरण वृक्ष के रूप में एक श्रेणीबद्ध क्लस्टरिंग उत्पन्न करता है। प्रत्येक नोड एक अवधारणा को परिभाषित करता है और उस अवधारणा का एक संभाव्य प्रतिनिधित्व शामिल करता है।
सीमाएं
-
यह धारणा कि गुण एक-दूसरे से स्वतंत्र होते हैं, अक्सर बहुत मजबूत होता है क्योंकि सहसंबंध मौजूद हो सकता है।
-
यह बड़े डेटाबेस डेटा, तिरछे पेड़ों और महंगे संभाव्यता वितरण को क्लस्टर करने के लिए उपयुक्त नहीं है।
तंत्रिका नेटवर्क दृष्टिकोण - तंत्रिका नेटवर्क दृष्टिकोण प्रत्येक क्लस्टर को एक उदाहरण के रूप में दर्शाता है, जो क्लस्टर के प्रोटोटाइप के रूप में कार्य करता है। नई वस्तुओं को क्लस्टर में वितरित किया जाता है जिसका उदाहरण कुछ दूरी माप के अनुसार सबसे समान है।