सांख्यिकीय डेटा माइनिंग की तकनीक क्या है?

<घंटा/>

सांख्यिकीय डेटा माइनिंग की विभिन्न तकनीकें हैं जो इस प्रकार हैं -

प्रतिगमन - इन दृष्टिकोणों का उपयोग एक या एक से अधिक भविष्यवक्ता (स्वतंत्र) चर से प्रतिक्रिया (आश्रित) चर के मूल्य की भविष्यवाणी करने के लिए किया जाता है जहां चर संख्यात्मक होते हैं। प्रतिगमन के कई रूप हैं, जिनमें रैखिक, बहु, भारित, बहुपद, गैर-पैरामीट्रिक, और मजबूत (मजबूत तकनीक फायदेमंद होती है जब त्रुटियां सामान्य स्थिति को पूरा करने में विफल होती हैं या जब डेटा में महत्वपूर्ण आउटलेयर शामिल होते हैं)।

सामान्यीकृत रैखिक मॉडल - ये मॉडल, और उनका सामान्यीकरण (सामान्यीकृत योगात्मक मॉडल), एक श्रेणीबद्ध प्रतिक्रिया चर (या इसके कुछ परिवर्तन) को रेखीय प्रतिगमन का उपयोग करके एक संख्यात्मक प्रतिक्रिया चर के मॉडलिंग जैसे भविष्यवक्ता चर के एक सेट के साथ संबद्ध करने में सक्षम बनाता है। सामान्यीकृत रैखिक मॉडल में लॉजिस्टिक रिग्रेशन और पॉइसन रिग्रेशन होते हैं।

विचरण का विश्लेषण - ये विधियां संख्यात्मक प्रतिक्रिया चर और एक या अधिक श्रेणीबद्ध चर (कारक) द्वारा परिभाषित दो या अधिक आबादी के लिए प्रयोगात्मक डेटा का विश्लेषण करती हैं। सामान्य तौर पर, एक एनोवा (विचरण का एकल-कारक विश्लेषण) समस्या में k जनसंख्या की तुलना होती है या यह तय करने के लिए उपचार परिभाषित करता है कि क्या कम से कम दो साधन अलग हैं।

मिश्रित-प्रभाव वाले मॉडल - ये मॉडल समूहीकृत डेटा-डेटा का विश्लेषण करने के लिए हैं जिन्हें एक या अधिक समूह चर के अनुसार वर्गीकृत किया जा सकता है। वे आम तौर पर एक या अधिक कारकों के अनुसार संयुक्त डेटा में एक प्रतिक्रिया चर और कुछ सहसंयोजकों के बीच संबंधों को परिभाषित करते हैं। अनुप्रयोग के विशिष्ट क्षेत्र जैसे बहुस्तरीय डेटा, दोहराए गए माप डेटा, ब्लॉक डिज़ाइन और देशांतरीय डेटा।

कारक विश्लेषण - यह विधि निर्धारित कर सकती है कि किसी दिए गए कारक को बनाने के लिए किन चरों को मिला दिया गया है। उदाहरण के लिए, कुछ मनोरोग डेटा के लिए, रुचि के एक विशिष्ट कारक को सीधे मापना संभव नहीं है (बुद्धि सहित); हालांकि, यह अन्य मात्राओं (छात्र परीक्षण स्कोर सहित) को मापने के लिए लागू होता है जो रुचि के तत्व को दर्शाता है। यहां, किसी भी चर को आश्रित के रूप में निर्दिष्ट नहीं किया गया है।

विभेदकारी विश्लेषण - यह विधि एक श्रेणीबद्ध प्रतिक्रिया चर की भविष्यवाणी कर सकती है। सामान्यीकृत रैखिक मॉडल के विपरीत, इसका तात्पर्य है कि स्वतंत्र चर एक बहुभिन्नरूपी सामान्य वितरण का अनुसरण करते हैं।

प्रक्रिया कुछ विभेदक कार्यों (स्वतंत्र चर के रैखिक सेट) को निर्धारित करने का प्रयास करती है जो प्रतिक्रिया चर द्वारा प्रतिनिधित्व किए गए समूहों के बीच भेदभाव करते हैं। विभेदक विश्लेषण आमतौर पर सामाजिक विज्ञान में प्रयोग किया जाता है।

समय श्रृंखला विश्लेषण - समय-श्रृंखला डेटा का विश्लेषण करने के लिए कुछ सांख्यिकीय तकनीकें हैं, जिनमें ऑटो-रिग्रेशन विधियां, यूनीवेरिएट एआरआईएमए (ऑटोरेग्रेसिव इंटीग्रेटेड मूविंग एवरेज) मॉडलिंग और लॉन्ग-मेमोरी टाइम-सीक्वेंस मॉडलिंग शामिल हैं।

अस्तित्व विश्लेषण - उत्तरजीविता विश्लेषण के लिए कई अच्छी तरह से स्थापित सांख्यिकीय विधियां मौजूद हैं। इन विधियों को शुरू में इस संभावना का अनुमान लगाने के लिए डिज़ाइन किया गया था कि चिकित्सा उपचार से गुजरने वाला रोगी कम से कम समय तक जीवित रह सकता है।

गुणवत्ता नियंत्रण - गुणवत्ता नियंत्रण के लिए चार्ट तैयार करने के लिए कई आँकड़ों का उपयोग किया जा सकता है, जिसमें शेवार्ट चार्ट और CUSUM चार्ट (दोनों समूह सारांश आँकड़े प्रदर्शित करते हैं) शामिल हैं। इन आँकड़ों में माध्य, मानक विचलन, श्रेणी, गणना, चलती औसत, चलती मानक विचलन और गतिमान श्रेणी शामिल हैं।