वर्गीकरण कैसे काम करता है?

<घंटा/>

वर्गीकरण एक डेटा-खनन दृष्टिकोण है जो अधिक कुशल भविष्यवाणियों और विश्लेषण में सहायता के लिए डेटा के एक सेट को तत्व प्रदान करता है। वर्गीकरण का उपयोग आम तौर पर तब किया जाता है जब दो लक्ष्य वर्ग होते हैं जिन्हें द्विआधारी वर्गीकरण के रूप में जाना जाता है।

जब दो से अधिक वर्गों की भविष्यवाणी की जा सकती है, विशेष रूप से पैटर्न पहचान समस्याओं में, इसे बहुपद वर्गीकरण के रूप में परिभाषित किया जाता है। हालांकि, बहुपद वर्गीकरण का उपयोग श्रेणीबद्ध प्रतिक्रिया डेटा के लिए किया जा सकता है, जहां किसी को यह अनुमान लगाने की आवश्यकता होती है कि विभिन्न तत्वों में से किस श्रेणी में सबसे अधिक संभावना वाले उदाहरण हैं।

डेटा वर्गीकरण एक दो-चरणीय चरण है। पहले चरण में, डेटा वर्गों या अवधारणाओं के पूर्व निर्धारित संग्रह को परिभाषित करते हुए एक क्लासिफायरियर बनाया जाता है। यह सीखने का चरण (या प्रशिक्षण चरण) है, जहां एक वर्गीकरण एल्गोरिथम डेटाबेस टुपल्स और उनके संबंधित वर्ग लेबल से बने प्रशिक्षण सेट का विश्लेषण या "समझ" द्वारा क्लासिफायरियर विकसित करता है।

एक टपल, एक्स, एक एन-आयामी विशेषता वेक्टर द्वारा वर्णित है, एक्स =(x₁ , x₂ , ... x<उप>एन ), n डेटाबेस विशेषताओं से टपल पर n माप बनाने को परिभाषित करना, तदनुसार, A₁ ,ए<उप>2 ,... ए<उप>एन ।

प्रत्येक टपल, एक्स, को एक पूर्वनिर्धारित वर्ग से संबंधित माना जाता है जैसा कि एक अन्य डेटाबेस विशेषता द्वारा तय किया जाता है जिसे क्लास लेबल विशेषता के रूप में जाना जाता है। वर्ग लेबल विशेषता असतत-मूल्यवान और अनियंत्रित है। यह स्पष्ट है कि प्रत्येक मान एक श्रेणी या वर्ग के रूप में प्रदान करता है।

प्रशिक्षण सेट बनाने वाले एकल टुपल्स को प्रशिक्षण टुपल्स के रूप में परिभाषित किया जाता है और विश्लेषण के तहत डेटाबेस से चुना जाता है। वर्गीकरण के ढांचे में, डेटा टुपल्स को नमूने, उदाहरण, डेटा बिंदु या ऑब्जेक्ट के रूप में परिभाषित किया जा सकता है।

क्योंकि प्रत्येक प्रशिक्षण टपल का वर्ग लेबल समर्थित है, इस चरण को पर्यवेक्षित शिक्षण कहा जाता है। इसकी तुलना अनुपयोगी शिक्षण (या क्लस्टरिंग) से की जा सकती है, जिसमें प्रत्येक प्रशिक्षण टपल का वर्ग लेबल लोकप्रिय नहीं होता है, और समझने के लिए कक्षाओं की संख्या या सेट को पहले से नहीं जाना जा सकता है।

दूसरे चरण में, मॉडल का उपयोग वर्गीकरण के लिए किया जा सकता है। सबसे पहले, क्लासिफायरियर की भविष्य कहनेवाला सटीकता की भविष्यवाणी की जाती है। यदि यह क्लासिफायरियर की सटीकता की गणना करने के लिए प्रशिक्षण सेट का उपयोग कर सकता है, तो यह अनुमान आशावादी हो सकता है, क्योंकि क्लासिफायर रिकॉर्ड्स को ओवरफिट कर देता है (यानी, सीखने के दौरान यह प्रशिक्षण रिकॉर्ड की कुछ विशिष्ट विसंगतियों को शामिल कर सकता है जो मौजूद नहीं हैं) सामान्य डेटा सेट पूरा हो गया)।

इसलिए, एक परीक्षण सेट का उपयोग किया जाता है, परीक्षण टुपल्स और उनके संबंधित वर्ग लेबल का निर्माण। इन टुपल्स को सामान्य डेटा सेट से बेतरतीब ढंग से चुना जाता है। वे प्रशिक्षण टुपल्स से अलग हैं, यह परिभाषित करते हुए कि उनका उपयोग क्लासिफायरियर बनाने के लिए नहीं किया जाता है।