डेटा वर्गीकरण क्या है?

<घंटा/>

वर्गीकरण एक डेटा माइनिंग दृष्टिकोण है जिसका उपयोग डेटा इंस्टेंस के लिए टीम सदस्यता की भविष्यवाणी करने के लिए किया जाता है। यह दो चरणों वाली प्रक्रिया है। पहले चरण में, डेटा वर्गों या दृष्टिकोणों के पूर्व निर्धारित सेट को परिभाषित करते हुए एक मॉडल बनाया जाता है। मॉडल को विशेषताओं द्वारा परिभाषित डेटाबेस टुपल्स पर विचार करके विकसित किया गया है।

प्रत्येक टपल को एक पूर्वनिर्धारित वर्ग से संबंधित माना जाता है, जैसा कि एक विशेषता द्वारा तय किया जाता है, जिसे क्लास लेबल विशेषता के रूप में जाना जाता है। वर्गीकरण के ढांचे में, डेटा टुपल्स को नमूने, उदाहरण या वस्तुओं के रूप में भी परिभाषित किया जाता है। मॉडल को विकसित करने के लिए विश्लेषण किए गए डेटा टुपल्स संयुक्त रूप से प्रशिक्षण डेटा सेट बनाते हैं। प्रशिक्षण सेट बनाने वाले एकल टुपल्स को प्रशिक्षण नमूने के रूप में परिभाषित किया जाता है और नमूना आबादी से आकस्मिक रूप से चुना जाता है।

क्योंकि प्रत्येक प्रशिक्षण नमूने का वर्ग लेबल समर्थित है, इस प्रक्रिया को पर्यवेक्षित शिक्षण भी कहा जाता है। अनुपयोगी शिक्षण में, जिसमें प्रशिक्षण नमूनों के वर्ग लेबल गुमनाम होते हैं, और सीखी जाने वाली कई कक्षाएं पहले से ज्ञात नहीं हो सकती हैं।

सीखा मॉडल वर्गीकरण नियमों, निर्णय वृक्षों या संख्यात्मक सूत्रों की संरचना में वर्णित है। उदाहरण के लिए, उपयोगकर्ता क्रेडिट डेटा का एक डेटाबेस दिया गया है, वर्गीकरण नियमों को उपयोगकर्ताओं को सर्वश्रेष्ठ या उचित क्रेडिट रेटिंग के रूप में पहचानने के लिए सीखा जा सकता है। नियमों का उपयोग भविष्य के डेटा नमूनों को वर्गीकृत करने और डेटाबेस सामग्री की अच्छी समझ का समर्थन करने के लिए किया जा सकता है।

होल्डआउट दृष्टिकोण एक सरल तकनीक है जो क्लास-लेबल नमूनों के परीक्षण सेट को लागू करती है। ये नमूने बेतरतीब ढंग से चुने गए हैं और प्रशिक्षण नमूनों से स्वायत्त हैं। किसी दिए गए परीक्षण सेट पर एक मॉडल की दक्षता परीक्षण सेट के नमूनों का प्रतिशत है जो मॉडल द्वारा उचित रूप से प्रतिबंधित हैं। प्रत्येक परीक्षण नमूने के लिए, प्रसिद्ध वर्ग लेबल को उस नमूने के लिए सीखे गए मॉडल के वर्ग पूर्वानुमान से अलग किया जाता है।

यदि मॉडल की दक्षता का आकलन प्रशिक्षण डेटा सेट पर निर्भर करता है, तो यह अनुमान आशावादी हो सकता है क्योंकि सीखा मॉडल जानकारी को ओवरफिट करने के लिए प्रभावित करता है (अर्थात्, इसमें प्रशिक्षण जानकारी की कुछ विशिष्ट विसंगतियां शामिल हो सकती हैं जो पूर्ण रूप से मौजूद नहीं हैं नमूना जनसंख्या)। इसलिए, एक परीक्षण सेट का उपयोग किया जाता है।

सीखना - प्रशिक्षण जानकारी का वर्गीकरण एल्गोरिथम द्वारा विश्लेषण किया जाता है। इसलिए, क्लास लेबल विशेषता एक क्रेडिट रेटिंग है, और सीखा मॉडल या क्लासिफायर एक वर्गीकरण नियम की संरचना में वर्णित है।
वर्गीकरण - वर्गीकरण नियमों की दक्षता को मापने के लिए परीक्षण डेटा का उपयोग किया जाता है। यदि दक्षता को स्वीकार्य माना जाता है, तो नियमों का उपयोग नए डेटा टुपल्स के वर्गीकरण के लिए किया जा सकता है।