एक विशेषता चयन माप विभाजन परीक्षण को चुनने के लिए एक अनुमानी है जो "सर्वश्रेष्ठ" वर्ग-लेबल प्रशिक्षण टुपल्स के दिए गए डेटा विभाजन, डी को एकल कक्षाओं में अलग करता है।
यदि यह विभाजन मानदंड के परिणामों के अनुसार डी को छोटे विभाजनों में विभाजित कर सकता है, तो आदर्श रूप से प्रत्येक विभाजन शुद्ध हो सकता है (यानी, किसी दिए गए विभाजन में आने वाले कुछ टुपल्स एक ही वर्ग से संबंधित हो सकते हैं)।
वैचारिक रूप से, "सर्वश्रेष्ठ" विभाजन मानदंड इस तरह की विधि में सबसे अधिक परिणाम है। विशेषता चयन उपायों को विभाजन नियम कहा जाता है क्योंकि वे तय करते हैं कि किसी दिए गए नोड पर ट्यूपल्स को कैसे विभाजित किया जाना है।
विशेषता चयन उपाय दिए गए प्रशिक्षण टुपल्स को परिभाषित करने वाली प्रत्येक विशेषता के लिए रैंकिंग का समर्थन करता है। माप के लिए सबसे अच्छी विधि वाली विशेषता को दिए गए टुपल्स के लिए विभाजन विशेषता के रूप में चुना जाता है।
यदि विभाजन विशेषता स्थिर-मूल्यवान है या यदि यह बाइनरी पेड़ों तक सीमित है, तो तदनुसार, विभाजन बिंदु या विभाजन उपसमुच्चय को भी विभाजन मानदंड के एक तत्व के रूप में तय किया जाना चाहिए।
विभाजन डी के लिए उत्पन्न ट्री नोड को विभाजन मानदंड के साथ लेबल किया गया है, मानदंड के प्रत्येक परिणाम के लिए शाखाएं बढ़ाई जाती हैं, और ट्यूपल्स को तदनुसार अलग किया जाता है। सूचना लाभ, लाभ अनुपात और गिनी इंडेक्स सहित तीन प्रसिद्ध विशेषता चयन उपाय हैं।
सूचना लाभ - सूचना लाभ का उपयोग उन सर्वोत्तम विशेषताओं / विशेषताओं को तय करने के लिए किया जाता है जो किसी वर्ग के बारे में अधिकतम डेटा प्रस्तुत करते हैं। यह एंट्रोपी की विधि का अनुसरण करता है, जबकि एंट्रोपी के स्तर को कम करने के उद्देश्य से, रूट नोड से लीफ नोड्स तक शुरू होता है।
नोड एन को विभाजन डी के टुपल्स को परिभाषित या धारण करने दें। सबसे बड़ी सूचना लाभ वाली विशेषता को नोड एन के लिए विभाजन विशेषता के रूप में चुना जाता है। यह विशेषता परिणामी उप-विभाजन में ट्यूपल्स को परिभाषित करने के लिए आवश्यक डेटा को कम करती है और कम से कम यादृच्छिकता को दर्शाती है या " अशुद्धता" इन उप-विभाजनों में।
लाभ अनुपात - सूचना लाभ माप कई परिणामों के साथ पक्षपातपूर्ण दृष्टिकोण परीक्षण है। यह उन विशेषताओं का चयन कर सकता है जिनमें उच्च संख्या में मान हैं। उदाहरण के लिए, एक विशेषता पर विचार करें जो उत्पाद आईडी सहित एक विशिष्ट पहचानकर्ता के रूप में सुविधा प्रदान करती है।
उत्पाद आईडी पर विभाजन के परिणामस्वरूप बड़ी संख्या में विभाजन हो सकते हैं, प्रत्येक में केवल एक टपल शामिल है। क्योंकि प्रत्येक विभाजन प्रामाणिक है, इस विभाजन के आधार पर डेटा सेट D को परिभाषित करने के लिए आवश्यक डेटा Infoproduct_ID होगा (डी) =0.
गिनी अनुक्रमणिका - कार्ट में गिनी इंडेक्स का इस्तेमाल किया जा सकता है। गिन्नी इंडेक्स डी की अशुद्धता की गणना करता है, एक डेटा विभाजन या प्रशिक्षण टुपल्स का संग्रह, जैसा कि
$$\mathrm{Gini(D)=1-\displaystyle\sum\limits_{i=1}^m p_i^2}$$
जहां पी<उप>मैंउप> क्या संभावना है कि डी में एक टपल कक्षा सी से संबंधित हैi और इसकी गणना |Ci . द्वारा की जाती है ,<उप>डीउप> |/|डी|.