विशेषता उपसमुच्चय का चयन अप्रासंगिक या अनावश्यक विशेषताओं (या आयामों) को समाप्त करके डेटा सेट आकार को कम करता है। विशेषता उपसमुच्चय चयन का उद्देश्य विशेषताओं के न्यूनतम सेट की खोज करना है जैसे कि डेटा वर्गों का परिणामी संभाव्यता वितरण सभी विशेषताओं का उपयोग करके मूल वितरण तक पहुँचने के लिए लागू होता है। विशेषताओं के कम सेट पर डेटा माइनिंग का एक अतिरिक्त लाभ है। यह खोजे गए पैटर्न में होने वाली कई विशेषताओं को कम करता है, पैटर्न को समझने में आसान बनाता है।
n विशेषताओं के लिए, 2 n . हैं संभावित उपसमूह। विशेषताओं के इष्टतम उपसमुच्चय के लिए एक संपूर्ण खोज अत्यधिक महंगी हो सकती है, विशेष रूप से n और एकाधिक डेटा वर्ग बढ़ने पर। इस प्रकार, कम खोज स्थान का पता लगाने वाली अनुमानी विधियों का उपयोग अक्सर विशेषता उपसमुच्चय चयन के लिए किया जाता है।
ये तरीके आमतौर पर लालची होते हैं क्योंकि विशेषता स्थान के माध्यम से खोज करते समय, वे हमेशा वही बनाते हैं जो उस समय बेहतर विकल्प लगता है। उनकी रणनीति इस उम्मीद में स्थानीय रूप से इष्टतम विकल्प बनाने की है कि इससे विश्व स्तर पर इष्टतम समाधान प्राप्त होगा। इस तरह के लालची दृष्टिकोण व्यवहार में कुशल होते हैं और एक इष्टतम समाधान का अनुमान लगाने के करीब आ सकते हैं।
सबसे अच्छी और सबसे खराब विशेषताएँ आमतौर पर सांख्यिकीय महत्व के परीक्षणों का उपयोग करके निर्धारित की जाती हैं, जो मानते हैं कि विशेषताएँ एक दूसरे से अलग हैं। कुछ अन्य विशेषता मूल्यांकन उपायों का उपयोग किया जा सकता है, जिसमें वर्गीकरण के लिए निर्णय वृक्षों के निर्माण में उपयोग किए जाने वाले सूचना लाभ माप शामिल हैं।
विशेषता उपसमुच्चय चयन की निम्नलिखित विधियाँ हैं जो इस प्रकार हैं -
-
चरणबद्ध अग्रेषण चयन - प्रक्रिया कम सेट के रूप में विशेषताओं के एक शून्य सेट के साथ शुरू होती है। मूल विशेषताओं में से सर्वश्रेष्ठ को निर्धारित किया जाता है और कम किए गए सेट में जोड़ा जाता है। प्रत्येक बाद के पुनरावृत्ति या चरण में, शेष मूल विशेषताओं में से सर्वश्रेष्ठ को सेट में डाला जाता है।
-
चरणबद्ध पिछड़े उन्मूलन - प्रक्रिया विशेषताओं के पूरे सेट के साथ शुरू होती है। प्रत्येक चरण में, यह सेट में शेष सबसे खराब विशेषता को हटा देता है।
-
फॉरवर्ड सिलेक्शन और बैकवर्ड एलिमिनेशन का संयोजन - स्टेपवाइज फॉरवर्ड सिलेक्शन और बैकवर्ड एलिमिनेशन मेथड्स को जोड़ा जा सकता है, ताकि हर स्टेप पर प्रोसेस बेस्ट एट्रीब्यूट को चुन सके और बाकी एट्रीब्यूट्स में से सबसे खराब को खत्म कर सके।
-
डिसीजन ट्री इंडक्शन - ID3, C4.5 और CART सहित डिसीजन ट्री एल्गोरिदम मूल रूप से वर्गीकरण के लिए डिज़ाइन किए गए थे। डिसीजन ट्री इंडक्शन एक फ्लोचार्ट जैसी संरचना का निर्माण करता है जहां प्रत्येक आंतरिक (गैर-पत्ती) नोड एक विशेषता पर एक परीक्षण को दर्शाता है, प्रत्येक शाखा परीक्षण के परिणाम से मेल खाती है, और प्रत्येक बाहरी (पत्ती) नोड एक वर्ग भविष्यवाणी को दर्शाता है। प्रत्येक नोड पर, एल्गोरिथ्म डेटा को अलग-अलग वर्गों में विभाजित करने के लिए "सर्वश्रेष्ठ" विशेषता चुनता है।