एंट्रॉपी-आधारित विवेकीकरण क्या है?

<घंटा/>

एन्ट्रॉपी-आधारित विवेकीकरण एक पर्यवेक्षित, ऊपर से नीचे की ओर बंटवारा करने का तरीका है। यह विभाजन-बिंदुओं की गणना और संरक्षण में वर्ग वितरण डेटा की खोज करता है (एक विशेषता श्रेणी को अलग करने के लिए डेटा मान)। यह एक सांख्यिकीय विशेषता का विवेक कर सकता है, ए, विधि ए के मान का चयन करती है जिसमें विभाजन-बिंदु के रूप में न्यूनतम एन्ट्रॉपी होती है, और परिणामी अंतराल को एक पदानुक्रमित विवेक पर प्रकट होने के लिए पुनरावर्ती रूप से विभाजित करता है।

विशिष्ट विवेकीकरण ए के लिए एक अवधारणा पदानुक्रम बनाता है। चलो डी में विशेषताओं के समूह और एक वर्ग-लेबल विशेषता द्वारा वर्णित डेटा टुपल्स शामिल हैं। वर्ग-लेबल विशेषता प्रति टुपल वर्ग डेटा का समर्थन करती है। सेट के अंदर एक विशेषता ए के एन्ट्रॉपी-आधारित विवेकीकरण के लिए मूल दृष्टिकोण इस प्रकार है -

ए के क्षेत्र को विभाजित करने के लिए ए के प्रत्येक मूल्य को संभावित अंतराल सीमा या विभाजन-बिंदु (संकेतित विभाजन बिंदु) के रूप में माना जा सकता है। यानी, ए के लिए एक विभाजन-बिंदु डी में टुपल्स को दो सबसेट में विभाजित कर सकता है जो शर्तों को पूरा करता है। ≤ स्प्लिट पॉइंट और A> स्प्लिट पॉइंट, क्रमशः, जिससे एक बाइनरी डिस्क्रीटाइज़ेशन होता है।

एन्ट्रॉपी-आधारित विवेकीकरण टुपल्स के वर्ग लेबल से संबंधित डेटा का उपयोग करता है। यह एन्ट्रापी-आधारित विवेक के बाद अंतर्ज्ञान को परिभाषित कर सकता है, इसे वर्गीकरण पर एक झलक लेनी चाहिए। मान लीजिए कि विशेषता ए और कुछ विभाजन-बिंदु पर विभाजन करके डी में टुपल्स को परिभाषित करना आवश्यक है।

उदाहरण के लिए, यदि हमारे पास दो वर्ग थे, तो यह आशा कर सकता है कि कक्षा C1 के कुछ टुपल्स एक विभाजन में गिर जाएंगे, और कक्षा C2 के कुछ टुपल्स दूसरे विभाजन में गिर जाएंगे। लेकिन यह संभावना नहीं है। उदाहरण के लिए, पहले विभाजन में C1 के कई टुपल्स शामिल हो सकते हैं, लेकिन कुछ C2 के भी। इस राशि को ए द्वारा विभाजन के आधार पर डी में एक टपल को परिभाषित करने के लिए अपेक्षित डेटा आवश्यकता के रूप में जाना जाता है। यह

द्वारा दिया जाता है

$$\mathrm{Info_A(D)\:=\:\frac{\mid\:D_1\:\mid}{\mid\:D\:\mid}Entrophy(D_1)\:+\:\frac{ \mid\:D_2\:\mid}{\mid\:D\:\mid}एंट्रोफी(D_2)}$$

जहां डी<उप>1 और डी<उप>2 डी में टुपल्स के अनुरूप ए स्प्लिट पॉइंट और ए> स्प्लिट पॉइंट की स्थिति को ताज़ा करना, तदनुसार; |डी| डी, आदि में टुपल्स की संख्या है। किसी दिए गए सेट के लिए एन्ट्रॉपी सेवा की गणना सेट में टुपल्स के वर्ग वितरण के आधार पर की जाती है।

उदाहरण के लिए, दिए गए m वर्ग, C1, C2... Cm, D1 की एन्ट्रॉपी है

$$\mathrm{Entrophy(D_1)}\:=\:-\displaystyle\sum\limits_{i=1}^m P_i{\log_{2}(P_i)}$$

एक विभाजन-बिंदु तय करने का चरण पुनरावर्ती रूप से प्राप्त किए गए प्रत्येक विभाजन के लिए उपयोग किया जाता है, जब तक कि कुछ रोक मानदंड पूरा नहीं हो जाता है, जिसमें सभी छात्र विभाजन-बिंदुओं पर न्यूनतम डेटा आवश्यकता एक छोटी सीमा से कम है, , या जब गुणक अधिक है सीमा से अधिक, max_interval.