वर्गीकरण एक मॉडल की खोज की प्रक्रिया है जो डेटा वर्गों या अवधारणाओं को परिभाषित और वर्गीकृत करता है। मॉडल प्रशिक्षण डेटा के एक सेट की खोज पर आधारित है (यानी, डेटा ऑब्जेक्ट जिसके लिए क्लास लेबल प्रसिद्ध हैं)। मॉडल उन वस्तुओं के वर्ग लेबल की भविष्यवाणी कर सकता है जिनके लिए वर्ग लेबल अनाम है।
व्युत्पन्न मॉडल को कई रूपों में दर्शाया जा सकता है, जिसमें वर्गीकरण नियम (यानी, IF-THEN नियम), निर्णय पेड़, संख्यात्मक सूत्र या तंत्रिका नेटवर्क शामिल हैं। डिसीजन ट्री एक फ़्लोचार्ट-जैसी ट्री आर्किटेक्चर है, जहां प्रत्येक नोड एक विशेषता मान पर एक परीक्षण को इंगित करता है, प्रत्येक शाखा परीक्षण के परिणाम को परिभाषित करती है, और पेड़ के पत्ते कक्षाओं या वर्ग वितरण का वर्णन करते हैं।
निर्णय वृक्षों को वर्गीकरण नियमों में बदला जा सकता है। एक तंत्रिका नेटवर्क, जब वर्गीकरण के लिए उपयोग किया जाता है, आम तौर पर इकाइयों के बीच भारित कनेक्शन के साथ न्यूरॉन जैसी प्रसंस्करण इकाइयों का एक सेट होता है। वर्गीकरण मॉडल बनाने की कई विधियाँ हैं, जिनमें भोले बायेसियन वर्गीकरण, सपोर्ट वेक्टर मशीन और k-निकटतम-पड़ोसी वर्गीकरण शामिल हैं।
वर्गीकरण पूर्वानुमान श्रेणीबद्ध (असतत, अनियंत्रित) लेबल, प्रतिगमन मॉडल निरंतर-मूल्यवान कार्य। प्रतिगमन (असतत) वर्ग लेबल के बजाय अनुपलब्ध या अनुपलब्ध सांख्यिकीय डेटा मानों की भविष्यवाणी कर सकता है।
भविष्यवाणी संख्यात्मक भविष्यवाणी और वर्ग लेबल भविष्यवाणी दोनों को परिभाषित करती है। प्रतिगमन विश्लेषण एक सांख्यिकीय पद्धति है जिसका उपयोग संख्यात्मक भविष्यवाणी के लिए किया जाता है, हालांकि कई तकनीकें भी मौजूद हैं। प्रतिगमन भी वितरण प्रवृत्तियों की पहचान के आसपास उपलब्ध डेटा पर निर्भर करता है।
प्रासंगिकता विश्लेषण से पहले वर्गीकरण और प्रतिगमन की आवश्यकता हो सकती है, जो उन विशेषताओं को पहचानने की कोशिश करता है जो वर्गीकरण और प्रतिगमन प्रक्रिया पर महत्वपूर्ण रूप से लागू होती हैं। वर्गीकरण और प्रतिगमन प्रक्रिया के लिए ऐसी विशेषताओं का चयन किया जाएगा। ऐसी कई विशेषताएं हैं, जो अप्रासंगिक हैं, उन पर विचार करने से अनाधिकृत रूप से विचार किया जा सकता है।
मान लीजिए कि AllElectronics के बिक्री प्रबंधक के रूप में बिक्री अभियान के लिए तीन प्रकार की प्रतिक्रियाओं जैसे अच्छी प्रतिक्रिया, हल्की प्रतिक्रिया और कोई प्रतिक्रिया नहीं के आधार पर स्टोर में वस्तुओं के एक बड़े सेट को परिभाषित करना आवश्यक है।
यह इन तीन वर्गों में से प्रत्येक के लिए मूल्य, ब्रांड, स्थान, प्रकार और श्रेणी सहित वस्तुओं की वर्णनात्मक विशेषताओं के आधार पर एक मॉडल प्राप्त कर सकता है। परिणामी वर्गीकरण को डेटा सेट की एक संगठित छवि प्रस्तुत करते हुए, प्रत्येक वर्ग को दूसरों से अधिकतम विश्लेषण करना चाहिए।
निर्णय वृक्ष मूल्य की पहचान व्यक्तिगत कारक के रूप में कर सकता है जो तीन वर्गों को सर्वोत्तम रूप से अलग करता है। पेड़ यह प्रकट कर सकता है कि कीमत के अलावा, अन्य विशेषताएं जो प्रत्येक वर्ग की वस्तुओं को एक दूसरे से अलग करने का समर्थन करती हैं, उनमें ब्रांड और स्थान शामिल हैं। ऐसा निर्णय वृक्ष हमें दिए गए बिक्री अभियान के प्रभाव को जानने और भविष्य में एक अधिक कुशल अभियान तैयार करने के लिए प्रदान कर सकता है।