Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

अर्ध-पर्यवेक्षित क्लस्टर विश्लेषण क्या है?

<घंटा/>

अर्ध-पर्यवेक्षित क्लस्टरिंग एक ऐसी विधि है जो डोमेन ज्ञान का उपयोग करके बिना लेबल वाले डेटा को विभाजित करती है। इसे आम तौर पर उदाहरणों के बीच जोड़ीदार बाधाओं के रूप में या लेबल किए गए उदाहरणों के अतिरिक्त सेट के रूप में व्यक्त किया जाता है।

पर्यवेक्षण के कुछ कमजोर ढांचे का उपयोग करके अप्रशिक्षित क्लस्टरिंग की गुणवत्ता में अनिवार्य रूप से सुधार किया जा सकता है, उदाहरण के लिए, जोड़ीदार बाधाओं के रूप में (यानी, समान या विभिन्न समूहों से संबंधित वस्तुओं के जोड़े)। ऐसी क्लस्टरिंग प्रक्रिया जो उपयोगकर्ता की प्रतिक्रिया या मार्गदर्शन बाधाओं पर निर्भर करती है, उसे अर्ध-पर्यवेक्षित क्लस्टरिंग के रूप में जाना जाता है।

अर्ध-पर्यवेक्षित क्लस्टरिंग के लिए कई विधियाँ हैं जिन्हें दो वर्गों में विभाजित किया जा सकता है जो इस प्रकार हैं -

प्रतिबंध-आधारित अर्ध-पर्यवेक्षित क्लस्टरिंग - अधिक उपयुक्त डेटा विभाजन की दिशा में एल्गोरिदम का समर्थन करने के लिए इसका उपयोग उपयोगकर्ता द्वारा प्रदान किए गए लेबल या बाधाओं के आधार पर किया जा सकता है। इसमें बाधाओं के आधार पर उद्देश्य फ़ंक्शन को संशोधित करना या लेबल की गई वस्तुओं के आधार पर क्लस्टरिंग प्रक्रिया को प्रारंभ और बाधित करना शामिल है।

दूरी-आधारित अर्ध-पर्यवेक्षित क्लस्टरिंग - इसका उपयोग एक अनुकूली दूरी माप को नियोजित करने के लिए किया जा सकता है जिसे पर्यवेक्षित डेटा में लेबल या बाधाओं को पूरा करने के लिए प्रशिक्षित किया जाता है। कई अनुकूली दूरी उपायों का उपयोग किया गया है, जिसमें एक्सपेक्टेशन-मैक्सिमाइज़ेशन (EM) का उपयोग करके प्रशिक्षित स्ट्रिंग-एडिट दूरी और सबसे छोटी दूरी एल्गोरिथ्म द्वारा परिवर्तित यूक्लिडियन दूरी शामिल है।

एक दिलचस्प क्लस्टरिंग विधि, जिसे CLTree (निर्णय TREE पर आधारित क्लस्टरिंग) के रूप में जाना जाता है। यह पर्यवेक्षित वर्गीकरण की अवधारणा के साथ अनुपयोगी क्लस्टरिंग को एकीकृत करता है। यह बाधा-आधारित अर्ध-पर्यवेक्षित क्लस्टरिंग का एक उदाहरण है। यह क्लस्टरिंग कार्य को एक वर्ग से संबंधित के रूप में क्लस्टर किए जाने वाले बिंदुओं के सेट पर विचार करके एक वर्गीकरण कार्य में बदल देता है, जिसे "Y" के रूप में लेबल किया जाता है और एक बहु-वर्ग लेबल के साथ अपेक्षाकृत समान रूप से वितरित, "गैर-अस्तित्व बिंदु" का एक सेट सम्मिलित करता है। एन."

डेटा क्षेत्र को डेटा (घने) क्षेत्रों और खाली (विरल) क्षेत्रों में विभाजित करने की समस्या को तब एक वर्गीकरण समस्या में बदला जा सकता है। इन बिंदुओं को "Y" बिंदुओं के समूह के रूप में माना जा सकता है। यह "ओ" बिंदुओं द्वारा परिभाषित समान रूप से वितरित "एन" बिंदुओं के संग्रह को जोड़ता है।

मूल क्लस्टरिंग समस्या इस प्रकार एक वर्गीकरण समस्या में बदल जाती है, जो एक ऐसा डिज़ाइन तैयार करती है जो "Y" और "N" बिंदुओं को अलग करता है। द्वि-आयामी स्थान को विभाजित करने के लिए एक निर्णय वृक्ष प्रेरण विधि का उपयोग किया जा सकता है। दो समूहों की पहचान की जाती है, जो केवल "Y" बिंदुओं से होते हैं।

इसका उपयोग मूल डेटा में बड़ी संख्या में "एन" अंक डालने के लिए किया जा सकता है, गणना में अनावश्यक ओवरहेड पेश कर सकता है। इसके अलावा, यह संभावना नहीं है कि जोड़े गए कुछ बिंदु वास्तव में एक बहुत ही उच्च-आयामी अंतरिक्ष में समान रूप से वितरित किए जाएंगे क्योंकि इसके लिए अंकों की एक घातीय संख्या की आवश्यकता हो सकती है।


  1. रॉक क्या है?

    ROCK,लिंक का उपयोग करके मजबूत क्लस्टरिंग के लिए खड़ा है। यह एक पदानुक्रमित क्लस्टरिंग एल्गोरिथ्म है जो श्रेणीबद्ध विशेषताओं वाले डेटा के लिए लिंक की अवधारणा (दो वस्तुओं के बीच आम पड़ोसियों की संख्या) का विश्लेषण करता है। यह प्रदर्शित करता है कि श्रेणीबद्ध जानकारी को क्लस्टर करते समय इस तरह की दूरी क

  1. दस्तावेज़ क्लस्टरिंग विश्लेषण क्या है?

    दस्तावेज़ क्लस्टरिंग एक असुरक्षित तरीके से फाइलों को व्यवस्थित करने के लिए महत्वपूर्ण तकनीक है। जब दस्तावेज़ों को टर्म वैक्टर के रूप में दर्शाया जाता है, तो क्लस्टरिंग विधियों को लागू किया जा सकता है। दस्तावेज़ स्थान लगातार बड़े आकार का होता है, जो विभिन्न सैकड़ों से लेकर हज़ारों तक होता है। आयामीत

  1. मल्टीरिलेशनल क्लस्टरिंग क्या है?

    मल्टीरिलेशनल क्लस्टरिंग डेटा ऑब्जेक्ट्स को क्लस्टर के समूह में विभाजित करने का चरण है, जो कई संबंधों में डेटा का उपयोग करके उनकी समानता पर निर्भर करता है। क्रॉसक्लस उपयोगकर्ता मार्गदर्शन के साथ क्रॉस-रिलेशनल क्लस्टरिंग का प्रतिनिधित्व करता है। यह मल्टीरिलेशनल क्लस्टरिंग के लिए एक एल्गोरिथम है जो विश