विभेदक विश्लेषण का प्रदर्शन क्या है?

<घंटा/>

विभेदक विश्लेषण दृष्टिकोण वर्गीकरण स्कोर पर प्रकट होने के लिए दो मुख्य मान्यताओं पर निर्भर करता है - पहला, यह मानता है कि कुछ वर्गों में भविष्यवक्ता माप एक बहुभिन्नरूपी सामान्य वितरण से प्रकट होते हैं। जब इस परिकल्पना को यथोचित रूप से इकट्ठा किया जाता है, तो लॉजिस्टिक रिग्रेशन सहित अन्य वर्गीकरण विधियों की तुलना में भेदभावपूर्ण विश्लेषण एक गतिशील उपकरण है।

यह प्रदर्शित किया जाता है कि विभेदक विश्लेषण लॉजिस्टिक प्रतिगमन की तुलना में 30% अधिक प्रभावी है यदि डेटा बहुभिन्नरूपी सामान्य है, तो समान परिणामों पर पहुंचने के लिए इसे 30% कम रिकॉर्ड की आवश्यकता होती है। यह प्रदर्शित किया गया है कि यह विधि सामान्यता से इस अर्थ में प्रस्थान करने के लिए अपेक्षाकृत मजबूत है कि भविष्यवक्ता गैर-सामान्य और यहां तक कि डमी चर भी हो सकते हैं।

यह सच है कि सबसे छोटा वर्ग पर्याप्त रूप से बड़ा है (लगभग 20 से अधिक रिकॉर्ड)। इस दृष्टिकोण को अलग-अलग भविष्यवक्ताओं के अविभाज्य क्षेत्र और बहुभिन्नरूपी क्षेत्र दोनों में बाहरी लोगों के प्रति संवेदनशील के रूप में भी जाना जाता है। खोजपूर्ण विश्लेषण का उपयोग चरम तरीकों का पता लगाने और यह तय करने के लिए किया जाना चाहिए कि क्या उन्हें हटाया जा सकता है।

विभेदक विश्लेषण के बाद दूसरी धारणा यह है कि एक वर्ग के अंदर कई भविष्यवक्ताओं के बीच सहसंबंध संरचना सभी वर्गों में समान होती है। प्रत्येक वर्ग के लिए अलग-अलग भविष्यवक्ताओं के बीच सहसंबंध मैट्रिक्स की गणना करके और मैट्रिक्स की तुलना करके इसकी जांच की जा सकती है।

यदि सहसंबंध वर्गों में काफी विपरीत हैं, तो क्लासिफायर उच्चतम परिवर्तनशीलता वाले वर्ग में रिकॉर्ड को परिभाषित करने के लिए प्रभावित करेगा। जब सहसंबंध संरचना अनिवार्य रूप से भिन्न होती है और डेटासेट उच्च होता है, तो एक विकल्प के लिए द्विघात विभेदक विश्लेषण की आवश्यकता होती है।

एक सामान्य दृष्टिकोण सामान्यता और सहसंबंध से संबंधित कुछ खोजपूर्ण विश्लेषण को चार्ज करना, एक मॉडल को प्रशिक्षित और गणना करना है, फिर, वर्गीकरण सटीकता के आधार पर और इसे मूल अन्वेषण से क्या सीखा जाता है, सर्कल बैक और इसके अलावा पता लगाएं कि क्या आउटलेर्स की जांच की जानी चाहिए या भविष्यवक्ता की पसंद चर पर दोबारा गौर किया गया।

प्रदर्शन की गणना के लिए सत्यापन समूह का उपयोग करने के लिए वही तर्क अभी भी जारी है। उदाहरण के लिए, राइडिंग मावर्स परिवारों में 1, 13, और 17 को गलत वर्गीकृत किया गया है। इसका मतलब है कि मॉडल इन रिकॉर्ड के लिए 12.5% की त्रुटि दर देता है।

यह दर एक पक्षपाती उपाय है - यह आशावादी है क्योंकि इसे वर्गीकरण कार्यों को फिट करने और त्रुटि की गणना के लिए समान डेटा का उपयोग किया जा सकता है। इसलिए, कई मॉडलों की तरह, यह एक सत्यापन सेट पर प्रदर्शन की जांच कर सकता है जिसमें डेटा होता है जो वर्गीकरण कार्यों की गणना में शामिल नहीं था।

यह एक विभेदक विश्लेषण से भ्रम मैट्रिक्स प्राप्त कर सकता है, इसे वर्गीकरण स्कोर की सटीक या प्रवृत्ति (वर्ग नामांकन की संभावनाएं) की आवश्यकता हो सकती है जो कि वर्गीकरण स्कोर से गणना की जाती है। दोनों ही मामलों में, यह निर्धारित किया जाता है कि प्रत्येक रिकॉर्ड का वर्ग असाइनमेंट सबसे बड़ा स्कोर या संभावना पर निर्भर करता है। यह इन वर्गीकरणों की तुलना इन आंकड़ों की वास्तविक वर्ग सदस्यता से कर सकता है। यह भ्रम मैट्रिक्स उत्पन्न करता है।