Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

एंट्रॉपी-आधारित विवेकीकरण क्या है?

<घंटा/>

एन्ट्रॉपी-आधारित विवेकीकरण एक पर्यवेक्षित, ऊपर से नीचे की ओर बंटवारा करने का तरीका है। यह विभाजन-बिंदुओं की गणना और संरक्षण में वर्ग वितरण डेटा की खोज करता है (एक विशेषता श्रेणी को अलग करने के लिए डेटा मान)। यह एक सांख्यिकीय विशेषता का विवेक कर सकता है, ए, विधि ए के मान का चयन करती है जिसमें विभाजन-बिंदु के रूप में न्यूनतम एन्ट्रॉपी होती है, और परिणामी अंतराल को एक पदानुक्रमित विवेक पर प्रकट होने के लिए पुनरावर्ती रूप से विभाजित करता है।

विशिष्ट विवेकीकरण ए के लिए एक अवधारणा पदानुक्रम बनाता है। चलो डी में विशेषताओं के समूह और एक वर्ग-लेबल विशेषता द्वारा वर्णित डेटा टुपल्स शामिल हैं। वर्ग-लेबल विशेषता प्रति टुपल वर्ग डेटा का समर्थन करती है। सेट के अंदर एक विशेषता ए के एन्ट्रॉपी-आधारित विवेकीकरण के लिए मूल दृष्टिकोण इस प्रकार है -

ए के क्षेत्र को विभाजित करने के लिए ए के प्रत्येक मूल्य को संभावित अंतराल सीमा या विभाजन-बिंदु (संकेतित विभाजन बिंदु) के रूप में माना जा सकता है। यानी, ए के लिए एक विभाजन-बिंदु डी में टुपल्स को दो सबसेट में विभाजित कर सकता है जो शर्तों को पूरा करता है। ≤ स्प्लिट पॉइंट और A> स्प्लिट पॉइंट, क्रमशः, जिससे एक बाइनरी डिस्क्रीटाइज़ेशन होता है।

एन्ट्रॉपी-आधारित विवेकीकरण टुपल्स के वर्ग लेबल से संबंधित डेटा का उपयोग करता है। यह एन्ट्रापी-आधारित विवेक के बाद अंतर्ज्ञान को परिभाषित कर सकता है, इसे वर्गीकरण पर एक झलक लेनी चाहिए। मान लीजिए कि विशेषता ए और कुछ विभाजन-बिंदु पर विभाजन करके डी में टुपल्स को परिभाषित करना आवश्यक है।

उदाहरण के लिए, यदि हमारे पास दो वर्ग थे, तो यह आशा कर सकता है कि कक्षा C1 के कुछ टुपल्स एक विभाजन में गिर जाएंगे, और कक्षा C2 के कुछ टुपल्स दूसरे विभाजन में गिर जाएंगे। लेकिन यह संभावना नहीं है। उदाहरण के लिए, पहले विभाजन में C1 के कई टुपल्स शामिल हो सकते हैं, लेकिन कुछ C2 के भी। इस राशि को ए द्वारा विभाजन के आधार पर डी में एक टपल को परिभाषित करने के लिए अपेक्षित डेटा आवश्यकता के रूप में जाना जाता है। यह

द्वारा दिया जाता है

$$\mathrm{Info_A(D)\:=\:\frac{\mid\:D_1\:\mid}{\mid\:D\:\mid}Entrophy(D_1)\:+\:\frac{ \mid\:D_2\:\mid}{\mid\:D\:\mid}एंट्रोफी(D_2)}$$

जहां डी<उप>1 और डी<उप>2 डी में टुपल्स के अनुरूप ए स्प्लिट पॉइंट और ए> स्प्लिट पॉइंट की स्थिति को ताज़ा करना, तदनुसार; |डी| डी, आदि में टुपल्स की संख्या है। किसी दिए गए सेट के लिए एन्ट्रॉपी सेवा की गणना सेट में टुपल्स के वर्ग वितरण के आधार पर की जाती है।

उदाहरण के लिए, दिए गए m वर्ग, C1, C2... Cm, D1 की एन्ट्रॉपी है

$$\mathrm{Entrophy(D_1)}\:=\:-\displaystyle\sum\limits_{i=1}^m P_i{\log_{2}(P_i)}$$

एक विभाजन-बिंदु तय करने का चरण पुनरावर्ती रूप से प्राप्त किए गए प्रत्येक विभाजन के लिए उपयोग किया जाता है, जब तक कि कुछ रोक मानदंड पूरा नहीं हो जाता है, जिसमें सभी छात्र विभाजन-बिंदुओं पर न्यूनतम डेटा आवश्यकता एक छोटी सीमा से कम है, , या जब गुणक अधिक है सीमा से अधिक, max_interval.


  1. सी#4.0 में टुपल्स क्या हैं?

    टुपल्स में विभिन्न डेटा प्रकारों के तत्वों का एक क्रम होता है। इसे प्रत्येक तत्व के प्रकार को अलग से निर्दिष्ट करने की आवश्यकता के बिना Tuple का एक उदाहरण वापस करने के लिए पेश किया गया था। आइए दो तत्वों के साथ एक टपल बनाएं। निम्नलिखित है कि आप एक टपल कैसे घोषित करते हैं। - Tuple<int, string>p

  1. पायथन में टुपल्स को क्या कहते हैं?

    एक टपल ऑब्जेक्ट का उपयोग आमतौर पर डेटा संरचना को परिभाषित करने के लिए किया जाता है जिसमें अल्पविराम से अलग फ़ील्ड मान कोष्ठक में रखे जाते हैं। प्रत्येक फ़ील्ड का मान इंडेक्स द्वारा टपल में पहचाना जाता है। >>> student=(1,"Ravi",23, 546) >>> rollno=student[0] >>> n

  1. पायथन टुपल्स बनाने के लिए सही सिंटैक्स क्या है?

    पायथन में, टपल ऑब्जेक्ट वस्तुओं का एक अपरिवर्तनीय संग्रह है, जरूरी नहीं कि एक ही प्रकार का हो। आइटम अल्पविराम द्वारा अलग किए जाते हैं और कोष्ठक के अंदर रखे जाते हैं, हालांकि वे वैकल्पिक होते हैं। >>> T1 = (1,one,3.45,[1,2,3]) >>> T2 = 1,2,3,4 कोष्ठक के अंदर कुछ भी नहीं के साथ खा