Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

डेटा माइनिंग में बाधाओं का वर्गीकरण क्या हैं?

<घंटा/>

बाधा-आधारित एल्गोरिदम को बार-बार आइटमसेट जनरेशन चरण में खोज क्षेत्र को कम करने के लिए बाधाओं की आवश्यकता होती है (एसोसिएशन नियम बनाने वाला चरण संपूर्ण एल्गोरिदम के लिए सटीक है)।

बाधाओं का महत्व अच्छी तरह से परिभाषित है और वे केवल एसोसिएशन नियम बनाते हैं जो ग्राहकों के लिए दिलचस्प हैं। विधि काफी तुच्छ है और नियम क्षेत्र कम हो जाता है जिससे शेष नियम बाधाओं का उपयोग करते हैं।

तीन प्रकार की बाधाएं हैं जो इस प्रकार हैं -

उदाहरणों पर प्रतिबंध - उदाहरणों पर एक बाधा परिभाषित करती है कि कैसे एक जोड़ी या उदाहरणों के एक सेट को क्लस्टर विश्लेषण में समूहीकृत किया जाना चाहिए। इस श्रेणी से दो प्रकार की बाधाएं हैं जैसे -

  • अनिवार्य लिंक बाधाएं -यदि दो वस्तुओं x और y पर एक अवश्य-लिंक बाधा को परिभाषित किया गया है, इसलिए क्लस्टर विश्लेषण के आउटपुट में x और y को एक क्लस्टर में समूहीकृत किया जाना चाहिए। ये जरूरी-लिंक बाधाएं ट्रांजिटिव हैं यानी, जरूरी-लिंक (एक्स, वाई) और जरूरी-लिंक (वाई, जेड), फिर जरूरी-लिंक (एक्स, जेड)।

  • बाधाओं को लिंक नहीं कर सकता - लिंक नहीं कर सकते बाधाएं जरूरी लिंक बाधाओं के विपरीत हैं। यदि दो वस्तुओं, x और y पर एक लिंक-लिंक बाधा को परिभाषित नहीं किया गया है, इसलिए क्लस्टर विश्लेषण के आउटपुट में, x और y कई समूहों से संबंधित होना चाहिए। लिंक नहीं कर सकते बाधाओं को शामिल किया जा सकता है। यदि लिंक नहीं कर सकते (x, y), अवश्य-लिंक (x, x ' ), और अवश्य-लिंक (y, y ' ), फिर लिंक नहीं कर सकते (x ' , वाई ' )।

क्लस्टर पर प्रतिबंध - क्लस्टर पर एक बाधा क्लस्टर पर एक आवश्यकता को परिभाषित करती है, संभवतः क्लस्टर की विशेषताओं का उपयोग करती है। उदाहरण के लिए, एक बाधा क्लस्टर में वस्तुओं की न्यूनतम संख्या, क्लस्टर के अधिकतम व्यास, या क्लस्टर के आकार (उदाहरण के लिए, उत्तल) को परिभाषित कर सकती है। क्लस्टरिंग विधियों को विभाजित करने के लिए परिभाषित समूहों की संख्या को क्लस्टर पर एक बाधा के रूप में चिह्नित किया जा सकता है।

समानता मापन पर प्रतिबंध - यूक्लिडियन दूरी सहित एक समानता माप का उपयोग क्लस्टर विश्लेषण में वस्तुओं के बीच समानता की गणना करने के लिए किया जाता है। विभिन्न अनुप्रयोगों में, अपवाद उपयोग करते हैं। समानता माप पर एक बाधा एक आवश्यकता को परिभाषित करती है जिसे समानता गणना का सम्मान करना चाहिए।

उदाहरण के लिए, यह लोगों को एक प्लाजा में बदलती वस्तुओं के रूप में क्लस्टर कर सकता है, जबकि यूक्लिडियन दूरी दो बिंदुओं के बीच चलने की दूरी उत्पन्न कर सकती है, समानता माप पर एक बाधा यह है कि सबसे छोटी दूरी को निष्पादित करने वाला प्रक्षेपवक्र एक दीवार को पार नहीं कर सकता है।

क्लस्टरिंग बाधाओं को वर्गीकृत करने के लिए एक और दृष्टिकोण है, यह मानता है कि बाधाओं का कितनी सख्ती से सम्मान किया जाना चाहिए। एक बाधा मुश्किल है अगर बाधा को बाधित करने वाली क्लस्टरिंग अस्वीकार्य है। एक बाधा नरम है यदि बाधा को बाधित करने वाली क्लस्टरिंग वांछनीय नहीं है लेकिन स्वीकार्य है जब कोई बेहतर समाधान नहीं खोजा जा सकता है। नरम बाधाओं को प्राथमिकता के रूप में भी जाना जाता है।


  1. स्थानिक डेटा माइनिंग की मूल बातें क्या हैं?

    स्थानिक डेटा माइनिंग स्थानिक मॉडल के लिए डेटा माइनिंग का अनुप्रयोग है। स्थानिक डेटा माइनिंग में, विश्लेषक भौगोलिक या स्थानिक डेटा का उपयोग व्यावसायिक खुफिया या अलग-अलग परिणाम बनाने के लिए करते हैं। भौगोलिक डेटा को प्रासंगिक और लाभकारी स्वरूपों में लाने के लिए इसके लिए विशिष्ट विधियों और संसाधनों की

  1. डेटा माइनिंग में आउटलेयर कितने प्रकार के होते हैं?

    डेटा माइनिंग में विभिन्न प्रकार के आउटलेयर हैं जो इस प्रकार हैं - वैश्विक आउटलेयर - किसी दिए गए डेटा सेट में, एक डेटा ऑब्जेक्ट एक वैश्विक बाहरी होता है यदि वह बाकी जानकारी सेट से अनिवार्य रूप से विचलित हो जाता है। वैश्विक आउटलेयर को बिंदु विसंगतियों के रूप में जाना जाता है, और सबसे आसान प्रकार के आ

  1. डेटा माइनिंग गोपनीयता-संरक्षण के तरीके क्या हैं?

    गोपनीयता-संरक्षण डेटा माइनिंग डेटा माइनिंग में गोपनीयता सुरक्षा के जवाब में डेटा माइनिंग अनुसंधान का एक अनुप्रयोग है। इसे प्राइवेसी-एन्हांस्ड या प्राइवेसी-सेंसिटिव डेटा माइनिंग कहा जाता है। यह बुनियादी संवेदनशील डेटा मूल्यों का खुलासा किए बिना सही डेटा माइनिंग परिणाम प्राप्त करने से संबंधित है। अधि