संकल्पनात्मक क्लस्टरिंग क्या है?

<घंटा/>

अवधारणात्मक क्लस्टरिंग मशीन लर्निंग में क्लस्टरिंग का एक रूप है, जो बिना लेबल वाली वस्तुओं का एक सेट दिया जाता है, वस्तुओं पर एक वर्गीकरण डिजाइन बनाता है। परंपरागत क्लस्टरिंग के विपरीत, जो आम तौर पर समान वस्तुओं के समूहों की पहचान करता है, वैचारिक क्लस्टरिंग प्रत्येक समूह के लिए विशिष्ट परिभाषाओं की खोज करके एक कदम आगे बढ़ता है, जहां प्रत्येक समूह एक अवधारणा या वर्ग को परिभाषित करता है।

इसलिए, वैचारिक क्लस्टरिंग एक दो-चरणीय प्रक्रिया है - क्लस्टरिंग को पहले लागू किया जाता है, उसके बाद लक्षण वर्णन किया जाता है। इस प्रकार, क्लस्टरिंग गुणवत्ता केवल एकल वस्तुओं की सेवा नहीं है। वैचारिक क्लस्टरिंग की अधिकांश तकनीकें एक सांख्यिकीय पद्धति अपनाती हैं जो अवधारणाओं या समूहों को तय करने में संभाव्यता माप का उपयोग करती है।

संभाव्य विवरण आमतौर पर प्रत्येक व्युत्पन्न अवधारणा को परिभाषित करने के लिए उपयोग किए जाते हैं। COBWEB वृद्धिशील वैचारिक क्लस्टरिंग की एक प्रसिद्ध और सरल विधि है। इसके इनपुट ऑब्जेक्ट को श्रेणीबद्ध विशेषता-मूल्य जोड़े द्वारा परिभाषित किया गया है। COBWEB एक वर्गीकरण ट्री के रूप में पदानुक्रमित क्लस्टरिंग बनाता है।

एक वर्गीकरण वृक्ष एक निर्णय वृक्ष से भिन्न होता है। वर्गीकरण ट्री में प्रत्येक नोड एक अवधारणा को परिभाषित करता है और इसमें उस अवधारणा का एक संभाव्य विवरण शामिल होता है, जो नोड के तहत वर्गीकृत वस्तुओं को सारांशित करता है। संभाव्य विवरण में $P(A_{i}=v_{ij}|C_{k})$ फॉर्म की अवधारणा और सशर्त संभावनाओं की प्रायिकता शामिल है, एक विशेषता-मान युग्म है (i^th विशेषता अपना j^th . लेती है संभावित मान) और C_k अवधारणा वर्ग है।

COBWEB पेड़ के निर्माण का मार्गदर्शन करने के लिए श्रेणी उपयोगिता के रूप में ज्ञात अनुमानी मूल्यांकन उपाय का उपयोग करता है। श्रेणी उपयोगिता (सीयू) के रूप में परिभाषित किया गया है

$$\frac{\sum_{k=1}^{n}P(C_{k})\left [\sum_{i}\sum_{j}P(A_{i}=v_{ij}|C_{ k})^{2}-\sum_{i}\sum_{j}P(A_{i}=v_{ij})^{2}\right ]}{n}$$

जहां n एक विभाजन बनाने वाले नोड्स, अवधारणाओं या "श्रेणियों" की संख्या है, {C₁ ,सी<उप>2 ,..., सी<उप>एन }, पेड़ के दिए गए स्तर पर। दूसरे शब्दों में, श्रेणी उपयोगिता विशेषता मानों की अपेक्षित संख्या में वृद्धि है जिसे एक विभाजन के बाद पूरी तरह से अनुमान लगाया जा सकता है (जहां यह अपेक्षित संख्या $P(C_{k})\sum_{i}\sum_{j पद से मेल खाती है }P(A_{i}=v_{ij}|C_{k})^{2}$ इस तरह के ज्ञान के बिना सही अनुमानों की अपेक्षित संख्या से अधिक (शब्द $\sum_{i}\sum_{j} के अनुरूप) P(A_{i}=v_{ij})^{2}$ । हालांकि इसमें व्युत्पत्ति प्रदर्शित करने के लिए जगह नहीं है, श्रेणी उपयोगिता पुरस्कार इंट्राक्लास समानता और इंटरक्लास असमानता, जहां -

इंट्राक्लास समानता - यह प्रायिकता $P(A_{i}=v_{ij}|C_{k})$ है। यह मान जितना अधिक होगा, इस विशेषता-मान युग्म को साझा करने वाले वर्ग के सदस्यों का अनुपात उतना ही अधिक होगा और युग्म वर्ग के सदस्यों का युग्म उतना ही अधिक अनुमानित होगा।

अंतरवर्गीय असमानता - यह प्रायिकता $P(C_{k}|A_{i}=v_{ij})$ है। यह मान जितना अधिक होगा, इस विशेषता-मान युग्म को साझा करने वाले विपरीत वर्गों में वस्तुएँ उतनी ही कम होंगी और युग्म वर्ग का पूर्वानुमानात्मक युग्म उतना ही अधिक होगा।

COBWEB एक उपयुक्त पथ के साथ पेड़ पर उतरता है, रास्ते में ताज़ा मायने रखता है, वस्तु को परिभाषित करने के लिए "सर्वश्रेष्ठ मेजबान" या नोड की खोज करता है। यह निर्णय अस्थायी रूप से प्रत्येक नोड में वस्तु का पता लगाने और परिणामी विभाजन की श्रेणी उपयोगिता का मूल्यांकन करने पर निर्भर करता है। उच्चतम श्रेणी उपयोगिता में परिणाम देने वाला प्लेसमेंट ऑब्जेक्ट के लिए सबसे अच्छा होस्ट होना चाहिए।