इलाज क्या है?

<घंटा/>

इलाज प्रतिनिधि का उपयोग कर क्लस्टरिंग का प्रतिनिधित्व करता है। यह एक क्लस्टरिंग एल्गोरिदम है जो एक दृष्टिकोण बनाने के लिए कई तकनीकों का उपयोग करता है जो गैर-गोलाकार वास्तुकला और गैर-समान आकार वाले उच्च डेटा सेट, आउटलेयर और क्लस्टर का प्रबंधन कर सकता है। CURE क्लस्टर से कई प्रतिनिधि बिंदुओं का उपयोग करके एक क्लस्टर को परिभाषित करता है।

ये बिंदु क्लस्टर की ज्यामिति और वास्तुकला को लेंगे। पहले प्रतिनिधि बिंदु को क्लस्टर के मध्य से सबसे दूर बिंदु होने के लिए चुना जाता है, जबकि शेष बिंदुओं का चयन किया जाता है ताकि वे पहले के सभी चयनित बिंदुओं से सबसे दूर हों। इस पद्धति में, प्रतिनिधि अंक साहचर्य रूप से अच्छी तरह से वितरित किए जाते हैं। चुना गया एकाधिक बिंदु एक पैरामीटर है, लेकिन यह पाया गया कि 10 या अधिक का मान अच्छी तरह से संचालित होता है।

क्योंकि प्रतिनिधि बिंदु चुने जाते हैं, वे केंद्र की ओर एक कारक से कम हो जाते हैं,𝛼। यह समर्थन बाहरी लोगों के प्रभाव को कम करता है, जो आम तौर पर केंद्र से अधिक दूर होते हैं और इसलिए अधिक सिकुड़ जाते हैं। उदाहरण के लिए, एक प्रतिनिधि बिंदु जो केंद्र से 10 इकाइयों की दूरी पर था, 3 इकाइयों (𝛼 =0.7 के लिए) से बदल सकता है, जबकि 1 इकाई की दूरी पर एक प्रतिनिधि बिंदु 0.3 इकाइयों को बदल सकता है।

क्लस्टरिंग चरण में दो बहु बिंदुओं पर आउटलेर्स को हटाने के लिए CURE पदानुक्रमित क्लस्टरिंग प्रक्रिया की विशिष्ट विशेषताओं का लाभ उठाता है। सबसे पहले, यदि कोई क्लस्टर धीरे-धीरे बढ़ रहा है, तो इसका मतलब यह हो सकता है कि इसमें ज्यादातर आउटलेयर शामिल हैं, क्योंकि परिभाषा के अनुसार, आउटलेयर दूसरों से बहुत दूर हैं और अक्सर अलग-अलग बिंदुओं के साथ संयुक्त नहीं होंगे।

क्योर में, बाहरी उन्मूलन की यह पहली प्रक्रिया आम तौर पर तब प्रकट होती है जब समूहों की संख्या 1/3 प्रारंभिक अंकों की संख्या होती है। बाहरी उन्मूलन की दूसरी प्रक्रिया तब प्रकट होती है जब कई क्लस्टर K के क्रम पर होते हैं, कई वांछित क्लस्टर। इस बिंदु पर, छोटे क्लस्टर हटा दिए जाते हैं।

क्योंकि इलाज की सबसे खराब स्थिति $\mathrm{O(m^2logm)}$ है, इसका उपयोग उच्च डेटा सेट के लिए सटीक रूप से नहीं किया जा सकता है। Cure क्लस्टरिंग प्रक्रिया को तेज करने के लिए दो विधियों का उपयोग करता है। पहली विधि एक यादृच्छिक नमूना लेती है और नमूना डेटा बिंदुओं पर पदानुक्रमित क्लस्टरिंग लागू करती है। इसके बाद एक अंतिम पास होता है जो निकटतम प्रतिनिधि बिंदु के साथ क्लस्टर का चयन करके डेटा सेट में प्रत्येक शेष बिंदु को क्लस्टर में से एक बनाता है।

कुछ मामलों में, क्लस्टरिंग के लिए आवश्यक नमूना अधिक होता है और दूसरी और तकनीक की आवश्यकता होती है। इस स्थिति में, इलाज नमूना डेटा को विभाजित करता है और प्रत्येक विभाजन में बिंदुओं को क्लस्टर करता है। इस पूर्व-क्लस्टरिंग प्रक्रिया के बाद मध्यवर्ती समूहों का क्लस्टरिंग और एक अंतिम पास होता है जो डेटा में प्रत्येक बिंदु को क्लस्टर में से किसी एक पर सेट करता है।