दो प्रकार के विभाजन एल्गोरिदम हैं जो इस प्रकार हैं -
K-मतलब क्लस्टरिंग - K-मतलब क्लस्टरिंग सबसे आम विभाजन एल्गोरिथम है। K- साधन डेटासेट में प्रत्येक डेटा को बनाए गए नए समूहों में से केवल एक को पुन:असाइन करता है। दूरी या समानता के माप का उपयोग करके निकटतम क्लस्टर को एक रिकॉर्ड या डेटा बिंदु सौंपा गया है। K- साधन क्लस्टरिंग में निम्न चरणों का उपयोग किया जाता है:
-
यह K प्रारंभिक क्लस्टर केन्द्रक c1 . का चयन कर सकता है , सी<उप>2उप> , सी<उप>3उप> .... ग<उप>केउप> ।
-
यह एस क्लस्टर में प्रत्येक इंस्टेंस x को असाइन कर सकता है जिसका केन्द्रक x के सबसे नजदीक है।
-
प्रत्येक क्लस्टर के लिए, उस क्लस्टर में कौन से तत्व निहित हैं, इसके आधार पर उसके केंद्रक की पुनर्गणना करें।
-
अभिसरण पूरा होने तक (बी) पर जाएं।
-
यह ऑब्जेक्ट (डेटा पॉइंट) को K क्लस्टर में अलग कर सकता है।
-
इसका उपयोग क्लस्टर सेंटर (सेंट्रोइड) =क्लस्टर में सभी डेटा बिंदुओं के औसत के लिए किया जाता है।
-
यह प्रत्येक बिंदु को उस क्लस्टर को निर्दिष्ट कर सकता है जिसका केंद्रक निकटतम है (दूरी फ़ंक्शन का उपयोग करके)।
साधनों के लिए प्रारंभिक मान मनमाने ढंग से असाइन किए गए हैं। इन्हें यादृच्छिक रूप से असाइन किया जा सकता है या शायद पहले k इनपुट आइटम से मानों का उपयोग स्वयं कर सकते हैं। अभिसरण तत्व चुकता त्रुटि पर आधारित हो सकता है, लेकिन उनका नहीं होना आवश्यक है। उदाहरण के लिए, एल्गोरिथ्म को विभिन्न समूहों को सौंपा गया है। अन्य समाप्ति तकनीकों ने केवल एक निश्चित संख्या में पुनरावृत्तियों को बंद कर दिया है। बिना अभिसरण के भी खरीदारी सुनिश्चित करने के लिए अधिकतम संख्या में पुनरावृत्तियों को शामिल किया जा सकता है।
एल्गोरिदम
इनपुट
डी ={टी<उप>1उप> टी<उप>2उप> ... टी<उप>एनउप> } // तत्वों का सेट // वांछित समूहों की संख्या
आउटपुट
K // क्लस्टर का सेट
K-मतलब एल्गोरिथम -
माध्य m1 . के लिए प्रारंभिक मान निर्दिष्ट करें मी<उप>2उप> ... मी<उप>केउप>
दोहराना
प्रत्येक आइटम को उस क्लस्टर को असाइन करें जिसका निकटतम माध्य है
प्रत्येक क्लस्टर के लिए नए माध्य की गणना करें
जब तक अभिसरण मानदंड पूरे नहीं हो जाते
निकटतम पड़ोसी एल्गोरिथम -एक एल्गोरिथ्म जो सिंगल लिंक तकनीक के समान है, उसे निकटतम पड़ोसी एल्गोरिथ्म कहा जाता है। इस सीरियल एल्गोरिथम के साथ, आइटमों को वर्तमान क्लस्टर में पुनरावृत्त रूप से संयोजित किया जाता है जो निकटतम हैं। इस एल्गोरिथम में, एक थ्रेशोल्ड टी यह निर्धारित कर सकता है कि क्या आइटम मौजूदा क्लस्टर में सम्मिलित किए जाएंगे या यदि कोई नया क्लस्टर उत्पन्न होता है।
एल्गोरिदम
इनपुट
डी ={टी<उप>1उप> टी<उप>2उप> ... टी<उप>एनउप> } // तत्वों का सेटA // तत्वों के बीच की दूरी दिखाने वाला आसन्न मैट्रिक्स
आउटपुट
K // क्लस्टर का सेटनिकटतम पड़ोसी एल्गोरिथ्म K1 ={t1 }; के ={के<उप>1उप> }; कश्मीर =1; i =2 से n के लिए tm . ज्ञात करें कुछ क्लस्टर Km . में K में ऐसा कि {ti , टी<उप>एमउप> } सबसे छोटा है; अगर {ti , टी<उप>एमउप> } $\leqslant$ t फिर Km =के<उप>एमउप> $\कप$ टी<उप>मैंउप> अन्यक =के + 1;के<उप>केउप> ={टी<उप>मैंउप> }पूर्व>