Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

विशेषता चयन उपाय क्या है?

<घंटा/>

एक विशेषता चयन माप विभाजन परीक्षण को चुनने के लिए एक अनुमानी है जो "सर्वश्रेष्ठ" वर्ग-लेबल प्रशिक्षण टुपल्स के दिए गए डेटा विभाजन, डी को एकल कक्षाओं में अलग करता है।

यदि यह विभाजन मानदंड के परिणामों के अनुसार डी को छोटे विभाजनों में विभाजित कर सकता है, तो आदर्श रूप से प्रत्येक विभाजन शुद्ध हो सकता है (यानी, किसी दिए गए विभाजन में आने वाले कुछ टुपल्स एक ही वर्ग से संबंधित हो सकते हैं)।

वैचारिक रूप से, "सर्वश्रेष्ठ" विभाजन मानदंड इस तरह की विधि में सबसे अधिक परिणाम है। विशेषता चयन उपायों को विभाजन नियम कहा जाता है क्योंकि वे तय करते हैं कि किसी दिए गए नोड पर ट्यूपल्स को कैसे विभाजित किया जाना है।

विशेषता चयन उपाय दिए गए प्रशिक्षण टुपल्स को परिभाषित करने वाली प्रत्येक विशेषता के लिए रैंकिंग का समर्थन करता है। माप के लिए सबसे अच्छी विधि वाली विशेषता को दिए गए टुपल्स के लिए विभाजन विशेषता के रूप में चुना जाता है।

यदि विभाजन विशेषता स्थिर-मूल्यवान है या यदि यह बाइनरी पेड़ों तक सीमित है, तो तदनुसार, विभाजन बिंदु या विभाजन उपसमुच्चय को भी विभाजन मानदंड के एक तत्व के रूप में तय किया जाना चाहिए।

विभाजन डी के लिए उत्पन्न ट्री नोड को विभाजन मानदंड के साथ लेबल किया गया है, मानदंड के प्रत्येक परिणाम के लिए शाखाएं बढ़ाई जाती हैं, और ट्यूपल्स को तदनुसार अलग किया जाता है। सूचना लाभ, लाभ अनुपात और गिनी इंडेक्स सहित तीन प्रसिद्ध विशेषता चयन उपाय हैं।

सूचना लाभ - सूचना लाभ का उपयोग उन सर्वोत्तम विशेषताओं / विशेषताओं को तय करने के लिए किया जाता है जो किसी वर्ग के बारे में अधिकतम डेटा प्रस्तुत करते हैं। यह एंट्रोपी की विधि का अनुसरण करता है, जबकि एंट्रोपी के स्तर को कम करने के उद्देश्य से, रूट नोड से लीफ नोड्स तक शुरू होता है।

नोड एन को विभाजन डी के टुपल्स को परिभाषित या धारण करने दें। सबसे बड़ी सूचना लाभ वाली विशेषता को नोड एन के लिए विभाजन विशेषता के रूप में चुना जाता है। यह विशेषता परिणामी उप-विभाजन में ट्यूपल्स को परिभाषित करने के लिए आवश्यक डेटा को कम करती है और कम से कम यादृच्छिकता को दर्शाती है या " अशुद्धता" इन उप-विभाजनों में।

लाभ अनुपात - सूचना लाभ माप कई परिणामों के साथ पक्षपातपूर्ण दृष्टिकोण परीक्षण है। यह उन विशेषताओं का चयन कर सकता है जिनमें उच्च संख्या में मान हैं। उदाहरण के लिए, एक विशेषता पर विचार करें जो उत्पाद आईडी सहित एक विशिष्ट पहचानकर्ता के रूप में सुविधा प्रदान करती है।

उत्पाद आईडी पर विभाजन के परिणामस्वरूप बड़ी संख्या में विभाजन हो सकते हैं, प्रत्येक में केवल एक टपल शामिल है। क्योंकि प्रत्येक विभाजन प्रामाणिक है, इस विभाजन के आधार पर डेटा सेट D को परिभाषित करने के लिए आवश्यक डेटा Infoproduct_ID होगा (डी) =0.

गिनी अनुक्रमणिका - कार्ट में गिनी इंडेक्स का इस्तेमाल किया जा सकता है। गिन्नी इंडेक्स डी की अशुद्धता की गणना करता है, एक डेटा विभाजन या प्रशिक्षण टुपल्स का संग्रह, जैसा कि

$$\mathrm{Gini(D)=1-\displaystyle\sum\limits_{i=1}^m p_i^2}$$

जहां पी<उप>मैं क्या संभावना है कि डी में एक टपल कक्षा सी से संबंधित हैi और इसकी गणना |Ci . द्वारा की जाती है ,<उप>डी |/|डी|.


  1. जेएसपी में आयात विशेषता क्या है?

    आयात विशेषता जावा आयात विवरण के समान कार्य करती है और व्यवहार करती है। आयात विकल्प का मान उस पैकेज का नाम है जिसे आप आयात करना चाहते हैं। आयात करने के लिए java.sql.* , निम्न पृष्ठ निर्देश का उपयोग करें - <%@ page import = "java.sql.*" %> अनेक पैकेज आयात करने के लिए, आप उन्हें निम्न

  1. सी # में गुण क्या हैं?

    एक विशेषता एक घोषणात्मक टैग है जिसका उपयोग आपके प्रोग्राम में विभिन्न तत्वों जैसे कक्षाओं, विधियों, संरचनाओं, एन्यूमरेटर्स, असेंबली आदि के व्यवहार के बारे में रनटाइम को जानकारी देने के लिए किया जाता है। निम्नलिखित वाक्य रचना है। [attribute(positional_parameters, name_parameter = value, ...)] Eleme

  1. C# में पूर्वनिर्धारित विशेषताएँ क्या हैं?

    C# में पूर्वनिर्धारित विशेषताएँ निम्नलिखित हैं - विशेषता उपयोग सशर्त अप्रचलित विशेषता उपयोग पूर्व-निर्धारित विशेषता AttributeUsage वर्णन करती है कि एक कस्टम विशेषता वर्ग का उपयोग कैसे किया जा सकता है। यहाँ वाक्य रचना है - [AttributeUsage (    validon,    AllowMultiple = allowm