Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

डेटा माइनिंग में K-मीन्स एल्गोरिथम के अतिरिक्त मुद्दे क्या हैं?

<घंटा/>

K-मीन्स एल्गोरिथम के विभिन्न मुद्दे हैं जो इस प्रकार हैं -

खाली समूहों को संभालना - पहले दिए गए मूल K- ​​साधन एल्गोरिथ्म के साथ पहला मुद्दा यह है कि यदि असाइनमेंट चरण के दौरान क्लस्टर को कोई अंक आवंटित नहीं किया जाता है, तो नल क्लस्टर प्राप्त किए जा सकते हैं। यदि ऐसा होता है, तो प्रतिस्थापन केन्द्रक को चुनने के लिए एक विधि की आवश्यकता होती है, क्योंकि चुकता त्रुटि आवश्यकता से बड़ी होगी।

एक तरीका उस बिंदु का चयन करना है जो हाल के कुछ केन्द्रक से सबसे दूर है। यदि यह उस बिंदु को हटा देता है जो वर्तमान में कुछ कुल चुकता त्रुटि का योगदान देता है। दूसरा तरीका उस क्लस्टर से प्रतिस्थापन केन्द्रक का चयन करना है जिसमें सबसे बड़ा SSE है। यह आम तौर पर क्लस्टर को विभाजित करेगा और क्लस्टरिंग के पूर्ण एसएसई को कम करेगा। यदि कई नल क्लस्टर हैं, तो इस प्रक्रिया को कई बार दोहराया जा सकता है।

आउटलेयर - जब चुकता त्रुटि पद्धति का उपयोग किया जाता है, तो आउटलेर्स खोजे गए समूहों की ओर अनावश्यक रूप से प्रवृत्त हो सकते हैं। विशिष्ट रूप से, जब आउटलेयर मौजूद होते हैं, तो परिणामी क्लस्टर सेंट्रोइड्स (प्रोटोटाइप) उतने प्रतिनिधि नहीं हो सकते जितने वे हो सकते हैं, और इस प्रकार, SSE भी उच्चतर होगा।

आउटलेर्स का पता लगाना और उन्हें पहले से हटाना फायदेमंद होता है। यह समझना आवश्यक है कि विशिष्ट क्लस्टरिंग अनुप्रयोग हैं जिनके लिए आउटलेर्स को हटाया नहीं जाना चाहिए। जब डेटा संपीड़न के लिए क्लस्टरिंग का उपयोग किया जाता है, तो प्रत्येक बिंदु को क्लस्टर किया जाना चाहिए, और कुछ मामलों में, वित्तीय विश्लेषण सहित, संभावित आउटलेयर, जैसे, असामान्य रूप से लाभदायक उपयोगकर्ता, दिलचस्प बिंदु हो सकते हैं।

पोस्टप्रोसेसिंग के साथ SSE को कम करना - एसएसई को कम करने का तरीका अधिक क्लस्टर ढूंढना है, यानी, एक बड़े के की आवश्यकता है। ऐसे मामलों में, एसएसई में सुधार होने की संभावना है, लेकिन क्लस्टर की संख्या बढ़ाने की आवश्यकता नहीं है। यह संभव है क्योंकि Kmeans आम तौर पर एक स्थानीय न्यूनतम में परिवर्तित हो जाते हैं।

परिणामी समूहों को "फिक्स-अप" करने के लिए विभिन्न विधियों का उपयोग किया जाता है ताकि एक क्लस्टरिंग बनाई जा सके जिसमें एसएसई कम हो। विधि अलग-अलग समूहों पर लक्षित करना है क्योंकि पूर्ण एसएसई आसानी से प्रत्येक क्लस्टर द्वारा योगदान किए गए एसएसई का कुल योग है। यह क्लस्टर पर विभाजन या विलय सहित कई कार्यों को लागू करके कुल SSE को बदल सकता है।

एक तरीका वैकल्पिक क्लस्टर विभाजन और विलय प्रक्रिया का उपयोग करना है। एक विभाजन प्रक्रिया के दौरान, समूहों को विभाजित किया जाता है, जबकि विलय प्रक्रिया के दौरान, क्लस्टर संयुक्त होते हैं। इस पद्धति में, स्थानीय एसएसई मिनीमा को वापस लेने और जब्त किए गए क्लस्टरों की संख्या के साथ क्लस्टरिंग समाधान बनाने के लिए यह सुलभ है। विभाजन और विलय के चरणों में उपयोग की जाने वाली कुछ विधियाँ निम्नलिखित हैं जो इस प्रकार हैं -


  1. डेटा वेयरहाउस में सुरक्षा संबंधी समस्याएं क्या हैं?

    डेटा वेयरहाउसिंग एक दृष्टिकोण है जो आम तौर पर व्यवसाय को महत्वपूर्ण व्यावसायिक अंतर्दृष्टि देने के लिए कई स्रोतों से डेटा एकत्र करने और संभालने के लिए उपयोग किया जाता है। डेटा वेयरहाउस विशेष रूप से प्रबंधन निर्णयों का समर्थन करने के लिए डिज़ाइन किया गया है। सरल शब्दों में, डेटा वेयरहाउस एक डेटाबेस

  1. डेटा माइनिंग इंटरफेस क्या हैं?

    डेटा माइनिंग सांख्यिकीय और गणितीय तकनीकों सहित पैटर्न पहचान तकनीकों का उपयोग करके, रिपॉजिटरी में सहेजे गए डेटा की एक उच्च मात्रा के माध्यम से उपयोगी नए सहसंबंध, पैटर्न और प्रवृत्तियों को खोजने की प्रक्रिया है। यह अनपेक्षित संबंधों की खोज करने के लिए तथ्यात्मक डेटासेट का विश्लेषण है और डेटा स्वामी क

  1. डेटा माइनिंग में OLAP संचालन क्या हैं?

    OLAP,ऑन-लाइन विश्लेषणात्मक प्रसंस्करण के लिए खड़ा है। OLAP सॉफ्टवेयर प्रौद्योगिकी का एक तत्व है जो विश्लेषकों, प्रबंधकों और अधिकारियों को डेटा के संभावित विचारों की एक विस्तृत विविधता में तेज, सुसंगत, इंटरैक्टिव एक्सेस के माध्यम से डेटा में अंतर्दृष्टि प्राप्त करने के लिए अधिकृत करता है, जिसे वास्तव