वर्गीकरण एक डेटा-खनन दृष्टिकोण है जो अधिक कुशल भविष्यवाणियों और विश्लेषण में सहायता के लिए डेटा के एक सेट को तत्व प्रदान करता है। वर्गीकरण का उपयोग आम तौर पर तब किया जाता है जब दो लक्ष्य वर्ग होते हैं जिन्हें द्विआधारी वर्गीकरण के रूप में जाना जाता है।
जब दो से अधिक वर्गों की भविष्यवाणी की जा सकती है, विशेष रूप से पैटर्न पहचान समस्याओं में, इसे बहुपद वर्गीकरण के रूप में परिभाषित किया जाता है। हालांकि, बहुपद वर्गीकरण का उपयोग श्रेणीबद्ध प्रतिक्रिया डेटा के लिए किया जा सकता है, जहां किसी को यह अनुमान लगाने की आवश्यकता होती है कि विभिन्न तत्वों में से किस श्रेणी में सबसे अधिक संभावना वाले उदाहरण हैं।
डेटा वर्गीकरण एक दो-चरणीय चरण है। पहले चरण में, डेटा वर्गों या अवधारणाओं के पूर्व निर्धारित संग्रह को परिभाषित करते हुए एक क्लासिफायरियर बनाया जाता है। यह सीखने का चरण (या प्रशिक्षण चरण) है, जहां एक वर्गीकरण एल्गोरिथम डेटाबेस टुपल्स और उनके संबंधित वर्ग लेबल से बने प्रशिक्षण सेट का विश्लेषण या "समझ" द्वारा क्लासिफायरियर विकसित करता है।
एक टपल, एक्स, एक एन-आयामी विशेषता वेक्टर द्वारा वर्णित है, एक्स =(x1 , x2 , ... x<उप>एनउप> ), n डेटाबेस विशेषताओं से टपल पर n माप बनाने को परिभाषित करना, तदनुसार, A1 ,ए<उप>2उप> ,... ए<उप>एनउप> ।
प्रत्येक टपल, एक्स, को एक पूर्वनिर्धारित वर्ग से संबंधित माना जाता है जैसा कि एक अन्य डेटाबेस विशेषता द्वारा तय किया जाता है जिसे क्लास लेबल विशेषता के रूप में जाना जाता है। वर्ग लेबल विशेषता असतत-मूल्यवान और अनियंत्रित है। यह स्पष्ट है कि प्रत्येक मान एक श्रेणी या वर्ग के रूप में प्रदान करता है।
प्रशिक्षण सेट बनाने वाले एकल टुपल्स को प्रशिक्षण टुपल्स के रूप में परिभाषित किया जाता है और विश्लेषण के तहत डेटाबेस से चुना जाता है। वर्गीकरण के ढांचे में, डेटा टुपल्स को नमूने, उदाहरण, डेटा बिंदु या ऑब्जेक्ट के रूप में परिभाषित किया जा सकता है।
क्योंकि प्रत्येक प्रशिक्षण टपल का वर्ग लेबल समर्थित है, इस चरण को पर्यवेक्षित शिक्षण कहा जाता है। इसकी तुलना अनुपयोगी शिक्षण (या क्लस्टरिंग) से की जा सकती है, जिसमें प्रत्येक प्रशिक्षण टपल का वर्ग लेबल लोकप्रिय नहीं होता है, और समझने के लिए कक्षाओं की संख्या या सेट को पहले से नहीं जाना जा सकता है।
दूसरे चरण में, मॉडल का उपयोग वर्गीकरण के लिए किया जा सकता है। सबसे पहले, क्लासिफायरियर की भविष्य कहनेवाला सटीकता की भविष्यवाणी की जाती है। यदि यह क्लासिफायरियर की सटीकता की गणना करने के लिए प्रशिक्षण सेट का उपयोग कर सकता है, तो यह अनुमान आशावादी हो सकता है, क्योंकि क्लासिफायर रिकॉर्ड्स को ओवरफिट कर देता है (यानी, सीखने के दौरान यह प्रशिक्षण रिकॉर्ड की कुछ विशिष्ट विसंगतियों को शामिल कर सकता है जो मौजूद नहीं हैं) सामान्य डेटा सेट पूरा हो गया)।
इसलिए, एक परीक्षण सेट का उपयोग किया जाता है, परीक्षण टुपल्स और उनके संबंधित वर्ग लेबल का निर्माण। इन टुपल्स को सामान्य डेटा सेट से बेतरतीब ढंग से चुना जाता है। वे प्रशिक्षण टुपल्स से अलग हैं, यह परिभाषित करते हुए कि उनका उपयोग क्लासिफायरियर बनाने के लिए नहीं किया जाता है।