विशेषता सबसेट चयन अप्रासंगिक या अनावश्यक विशेषताओं (या आयाम) को हटाकर डेटा सेट आकार को कम करता है। विशेषता उपसमुच्चय चयन का उद्देश्य विशेषताओं के न्यूनतम सेट की खोज करना है जैसे कि डेटा वर्गों का बाद का संभाव्यता वितरण सभी विशेषताओं का उपयोग करके प्राप्त मूल वितरण के जितना संभव हो उतना करीब है।
n विशेषताओं के लिए, 2n संभावित उपसमुच्चय हैं। विशेषताओं के इष्टतम उपसमुच्चय के लिए एक संपूर्ण खोज अत्यंत महंगी हो सकती है, विशेष रूप से n और डेटा वर्गों की संख्या में वृद्धि के कारण। इसलिए, कम खोज स्थान का पता लगाने वाले अनुमानी दृष्टिकोण आमतौर पर विशेषता सबसेट चयन के लिए उपयोग किए जाते हैं।
ये दृष्टिकोण अक्सर लालची होते हैं क्योंकि विशेषता स्थान के माध्यम से खोज करते समय, वे लगातार उस समय कौन से विचार अच्छे विकल्प होते हैं। उनकी पद्धति इस उम्मीद में स्थानीय रूप से इष्टतम विकल्प विकसित करना है कि इससे विश्वव्यापी इष्टतम समाधान प्राप्त होगा। ऐसी लालची तकनीकें व्यवहार में कुशल होती हैं और एक इष्टतम समाधान की गणना के करीब आ सकती हैं।
"सर्वश्रेष्ठ" और "सबसे खराब" विशेषताओं को आम तौर पर सांख्यिकीय महत्व के परीक्षणों का उपयोग करके तय किया जाता है, जो मानते हैं कि गुण एक दूसरे से अलग हैं। कुछ अलग विशेषता मूल्यांकन उपायों का उपयोग किया जा सकता है, जिसमें वर्गीकरण के लिए निर्णय वृक्षों के निर्माण में उपयोग किए जाने वाले सूचना लाभ माप शामिल हैं।
विशेषता उपसमुच्चय चयन के बुनियादी अनुमानी तरीके हैं जिनमें निम्नलिखित तकनीकें शामिल हैं जो इस प्रकार हैं -
चरणबद्ध अग्रेषण चयन - प्रक्रिया घटे हुए सेट के रूप में विशेषताओं के एक शून्य सेट के साथ शुरू होती है। प्रारंभिक विशेषताओं में से सबसे अच्छा तय किया जाता है और घटे हुए सेट में डाला जाता है। प्रत्येक बाद के पुनरावृत्ति या चरण में, शेष प्रारंभिक विशेषताओं को सेट में डाला जाता है।
स्टेपवाइज बैकवर्ड एलिमिनेशन - प्रक्रिया विशेषताओं के पूरे सेट के साथ शुरू होती है। प्रत्येक चरण में, यह सेट में शेष सबसे खराब विशेषता को समाप्त कर देता है।
अग्रेषण चयन और पिछड़े उन्मूलन का संयोजन - स्टेपवाइज फॉरवर्ड सिलेक्शन और बैकवर्ड एलिमिनेशन तकनीकों को मिलाया जा सकता है, ताकि प्रत्येक चरण में, प्रक्रिया सबसे अच्छी विशेषता का चयन करे और शेष विशेषताओं में से सबसे खराब को हटा दे।
निर्णय ट्री प्रेरण -निर्णय ट्री एल्गोरिदम, जिसमें ID3, C4.5, और CART शामिल हैं, को शुरू में वर्गीकरण के लिए डिज़ाइन किया गया था। डिसीजन ट्री इंडक्शन एक फ्लोचार्ट जैसी संरचना का निर्माण करता है जहां प्रत्येक आंतरिक (गैर-पत्ती) नोड एक विशेषता पर एक परीक्षण को दर्शाता है, प्रत्येक शाखा परीक्षण के परिणाम से मेल खाती है, और प्रत्येक बाहरी (पत्ती) नोड एक वर्ग भविष्यवाणी को दर्शाता है। प्रत्येक नोड पर, एल्गोरिथम सूचना को एकल वर्गों में विभाजित करने के लिए "सर्वश्रेष्ठ" विशेषता का चयन करता है।
जब डिसीजन ट्री इंडक्शन का उपयोग विशेषता उपसमुच्चय चयन के लिए किया जाता है, तो दी गई जानकारी से एक ट्री बनाया जाता है। वे सभी गुण जो वृक्ष में नहीं होते हैं, अप्रासंगिक माने जाते हैं। ट्री में होने वाली विशेषताओं का समूह विशेषताओं के घटे हुए उपसमूह का निर्माण करता है।