Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

मॉडल-आधारित क्लस्टरिंग क्या है?

<घंटा/>

मॉडल-आधारित क्लस्टरिंग डेटा क्लस्टरिंग के लिए एक सांख्यिकीय दृष्टिकोण है। माना जाता है कि देखे गए (बहुभिन्नरूपी) डेटा को घटक मॉडल के एक सीमित संयोजन से बनाया गया है। प्रत्येक घटक मॉडल एक संभाव्यता वितरण है, आम तौर पर एक पैरामीट्रिक बहुभिन्नरूपी वितरण।

उदाहरण के लिए, एक बहुभिन्नरूपी गाऊसी मिश्रण मॉडल में, प्रत्येक घटक एक बहुभिन्नरूपी गाऊसी वितरण है। किसी विशेष अवलोकन को उत्पन्न करने के लिए जिम्मेदार घटक उस समूह को निर्धारित करता है जिससे अवलोकन संबंधित है।

मॉडल-आधारित क्लस्टरिंग दिए गए डेटा और कुछ गणितीय मॉडल के बीच फिट को आगे बढ़ाने का एक प्रयास है और यह इस धारणा पर आधारित है कि डेटा एक बुनियादी संभाव्यता वितरण के संयोजन से बनाया गया है।

निम्नलिखित प्रकार के मॉडल-आधारित क्लस्टरिंग इस प्रकार हैं -

सांख्यिकीय दृष्टिकोण - एक्सपेक्टेशन मैक्सिमाइजेशन एक लोकप्रिय पुनरावृत्त शोधन एल्गोरिथम है। k-means का विस्तार -

  • यह वजन (संभाव्यता वितरण) के अनुसार प्रत्येक ऑब्जेक्ट को क्लस्टर में असाइन कर सकता है।

  • वजन माप के आधार पर नए साधनों की गणना की जाती है।

मूल विचार इस प्रकार है -

  • यह पैरामीटर वेक्टर के प्रारंभिक अनुमान से शुरू हो सकता है।

  • इसका उपयोग पैरामीटर वेक्टर द्वारा बनाए गए मिश्रण घनत्व के विरुद्ध डिज़ाइनों को पुनरावृत्त रूप से पुन:स्थापित करने के लिए किया जा सकता है।

  • इसका उपयोग पुन:रिकॉर्ड किए गए पैटर्न के लिए किया जाता है जिसका उपयोग पैरामीटर अनुमानों को अपडेट करने के लिए किया जाता है।

  • इसका उपयोग उसी क्लस्टर से संबंधित पैटर्न के लिए किया जा सकता है यदि उन्हें किसी विशेष घटक में उनके स्कोर द्वारा रखा जाता है।

एल्गोरिदम

  • प्रारंभ में, k क्लस्टर केंद्रों को यादृच्छिक रूप से असाइन करें।

  • इसे पुनरावृत्त रूप से परिष्कृत किया जा सकता है दो चरणों के आधार पर क्लस्टर इस प्रकार हैं -

उम्मीद कदम - यह प्रत्येक डेटा बिंदु Xi . असाइन कर सकता है Ci . को क्लस्टर करने के लिए निम्नलिखित संभावना के साथ

$$\mathrm{P(X_{i}\in\:C_{k})\:=\:P(C_k\arrowvert\:X_i)\:=\:\frac{P(C_k)P(X_i\ एरोवर्ट\:C_k)}{P(X_i)}}$$

अधिकतमकरण चरण - इसका उपयोग मॉडल पैरामीटर का अनुमान लगाने के लिए किया जा सकता है

$$\mathrm{m_k\:=\:\frac{1}{N}\displaystyle\sum\limits_{i=1}^N \frac{X_{i}P(X_i\:\in\:C_k) }{X_{j}P(X_i)\in\:C_j}}$$

मशीन सीखने का तरीका - मशीन लर्निंग एक ऐसा दृष्टिकोण है जो विशाल डेटा प्रोसेसिंग के लिए जटिल एल्गोरिदम बनाता है और अपने उपयोगकर्ताओं को परिणामों का समर्थन करता है। यह जटिल कार्यक्रमों का उपयोग करता है जो अनुभव के माध्यम से समझ सकते हैं और भविष्यवाणियां कर सकते हैं।

प्रशिक्षण जानकारी के लगातार इनपुट द्वारा एल्गोरिदम में सुधार किया जाता है। मशीन लर्निंग का मुख्य उद्देश्य डेटा सीखना और डेटा से ऐसे मॉडल बनाना है जिन्हें इंसान समझ सकें और इस्तेमाल कर सकें।

यह वृद्धिशील वैचारिक शिक्षा का एक प्रसिद्ध दृष्टिकोण है, जो एक वर्गीकरण वृक्ष के रूप में एक श्रेणीबद्ध क्लस्टरिंग उत्पन्न करता है। प्रत्येक नोड एक अवधारणा को परिभाषित करता है और उस अवधारणा का एक संभाव्य प्रतिनिधित्व शामिल करता है।

सीमाएं

  • यह धारणा कि गुण एक-दूसरे से स्वतंत्र होते हैं, अक्सर बहुत मजबूत होता है क्योंकि सहसंबंध मौजूद हो सकता है।

  • यह बड़े डेटाबेस डेटा, तिरछे पेड़ों और महंगे संभाव्यता वितरण को क्लस्टर करने के लिए उपयुक्त नहीं है।

तंत्रिका नेटवर्क दृष्टिकोण - तंत्रिका नेटवर्क दृष्टिकोण प्रत्येक क्लस्टर को एक उदाहरण के रूप में दर्शाता है, जो क्लस्टर के प्रोटोटाइप के रूप में कार्य करता है। नई वस्तुओं को क्लस्टर में वितरित किया जाता है जिसका उदाहरण कुछ दूरी माप के अनुसार सबसे समान है।


  1. प्रोटोटाइप-आधारित क्लस्टरिंग क्या है?

    प्रोटोटाइप-आधारित क्लस्टरिंग में, क्लस्टर ऑब्जेक्ट्स का एक समूह होता है जिसमें कुछ ऑब्जेक्ट प्रोटोटाइप के करीब होता है जो किसी अन्य क्लस्टर के प्रोटोटाइप की तुलना में क्लस्टर का प्रतिनिधित्व करता है। एक सरल प्रोटोटाइप-आधारित क्लस्टरिंग एल्गोरिदम जिसे क्लस्टर के प्रोटोटाइप के रूप में क्लस्टर में तत्व

  1. स्टिंग ग्रिड-आधारित क्लस्टरिंग क्या है?

    ग्रिड-आधारित क्लस्टरिंग विधियाँ बहु-रिज़ॉल्यूशन ग्रिड डेटा संरचना का उपयोग करती हैं। यह ऑब्जेक्ट क्षेत्रों को कोशिकाओं की एक सीमित संख्या में परिमाणित करता है जो एक ग्रिड संरचना बनाते हैं जिस पर क्लस्टरिंग के लिए सभी संचालन लागू होते हैं। विधि का लाभ इसका त्वरित प्रसंस्करण समय है, जो आम तौर पर डेटा

  1. दस्तावेज़ क्लस्टरिंग विश्लेषण क्या है?

    दस्तावेज़ क्लस्टरिंग एक असुरक्षित तरीके से फाइलों को व्यवस्थित करने के लिए महत्वपूर्ण तकनीक है। जब दस्तावेज़ों को टर्म वैक्टर के रूप में दर्शाया जाता है, तो क्लस्टरिंग विधियों को लागू किया जा सकता है। दस्तावेज़ स्थान लगातार बड़े आकार का होता है, जो विभिन्न सैकड़ों से लेकर हज़ारों तक होता है। आयामीत