Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

सांख्यिकीय दृष्टिकोण क्या हैं?

<घंटा/>

सांख्यिकीय दृष्टिकोण मॉडल-आधारित दृष्टिकोण हैं जैसे डेटा के लिए एक मॉडल तैयार किया जाता है, और वस्तुओं की गणना इस बात से की जाती है कि वे मॉडल को कितनी अच्छी तरह फिट करते हैं। बाहरी पता लगाने के लिए अधिकांश सांख्यिकीय दृष्टिकोण एक संभाव्यता वितरण मॉडल विकसित करने और उस मॉडल के नीचे Iikely ऑब्जेक्ट कैसे हैं, इस पर निर्भर हैं।

एक बाहरी वस्तु एक ऐसी वस्तु है जिसमें डेटा के संभाव्यता वितरण मॉडल से संबंधित कम संभावना होती है। उपयोगकर्ता-परिभाषित वितरण के मापदंडों की गणना करके डेटा से एक संभाव्यता वितरण मॉडल तैयार किया जाता है।

यदि डेटा को गॉसियन वितरण माना जाता है, इसलिए मूल वितरण के माध्य और मानक विचलन को डेटा के माध्य और मानक विचलन की गणना करके मापा जा सकता है। वितरण के नीचे प्रत्येक वस्तु की प्रायिकता की गणना की जा सकती है।

सांख्यिकीय परीक्षणों की एक व्यापक पद्धति पर आधारित आउटलेयर, या असंगत टिप्पणियों की पहचान करने के लिए तैयार किया गया है, जैसा कि उन्हें सांख्यिकीय साहित्य में जाना जाता है। इनमें से कुछ विसंगति परीक्षण बेहद विशिष्ट हैं और सांख्यिकीय ज्ञान के स्तर को इस पाठ की क्षमता से आगे मानते हैं।

डेटा सेट के विशिष्ट वितरण की पहचान करना - जबकि कई प्रकार के डेटा को सामान्य वितरण की एक छोटी संख्या द्वारा परिभाषित किया जा सकता है, जिसमें गॉसियन, पॉइसन, या द्विपद शामिल हैं, गैर-मानक वितरण वाले डेटा सेट सहयोगी रूप से सामान्य हैं। बेशक, अगर गलत मॉडल चुना गया है, तो किसी ऑब्जेक्ट को गलती से एक बाहरी के रूप में पहचाना जा सकता है।

उदाहरण के लिए, डेटा को गाऊसी वितरण से प्रदर्शित होने के रूप में तैयार किया जा सकता है, लेकिन एक ऐसे वितरण से आ सकता है जिसमें माध्य से दूर मान प्राप्त करने की एक बड़ी संभावना (गॉसियन वितरण की तुलना में) है। इस तरह के व्यवहार वाले सांख्यिकीय वितरण व्यवहार में सामान्य होते हैं और उन्हें भारी-पूंछ वाले वितरण कहा जाता है।

प्रयुक्त विशेषताओं की संख्या - कुछ सांख्यिकीय बाहरी पहचान तकनीक एक व्यक्तिगत विशेषता के लिए उपयोग करती हैं, लेकिन कुछ तकनीकों को बहुभिन्नरूपी डेटा के लिए दर्शाया गया है।

वितरण का मिश्रण - डेटा को वितरण के संयोजन के रूप में तैयार किया जा सकता है, और ऐसे मॉडलों के आधार पर बाहरी पहचान योजनाओं का उत्पादन किया जा सकता है। हालांकि संभावित रूप से अधिक गतिशील, ऐसे मॉडल सीखने और उपयोग करने दोनों के लिए जटिल हैं। उदाहरण के लिए, पहले की वस्तुओं की पहचान करने के लिए आवश्यक वितरण को आउटलेयर के रूप में परिभाषित किया जा सकता है।

बाहरी पता लगाने के लिए सांख्यिकीय दृष्टिकोण एक मजबूत नींव रखते हैं और मानक सांख्यिकीय तकनीकों पर निर्मित होते हैं, जिसमें वितरण के मापदंडों की गणना भी शामिल है। जब डेटा का पर्याप्त ज्ञान हो और परीक्षण के प्रकार का उपयोग किया जाना चाहिए तो ये परीक्षण कुशल हो सकते हैं। व्यक्तिगत विशेषताओं के लिए सांख्यिकीय बाहरी परीक्षणों की एक व्यापक विधि है। बहुभिन्नरूपी डेटा के लिए कम विकल्प उपलब्ध हैं, और ये परीक्षण उच्च-आयामी रिकॉर्ड के लिए खराब तरीके से लागू हो सकते हैं।


  1. डेटा माइनिंग इंटरफेस क्या हैं?

    डेटा माइनिंग सांख्यिकीय और गणितीय तकनीकों सहित पैटर्न पहचान तकनीकों का उपयोग करके, रिपॉजिटरी में सहेजे गए डेटा की एक उच्च मात्रा के माध्यम से उपयोगी नए सहसंबंध, पैटर्न और प्रवृत्तियों को खोजने की प्रक्रिया है। यह अनपेक्षित संबंधों की खोज करने के लिए तथ्यात्मक डेटासेट का विश्लेषण है और डेटा स्वामी क

  1. आउटलेयर क्या हैं?

    एक बाहरी एक डेटा ऑब्जेक्ट है जो अनिवार्य रूप से बाकी वस्तुओं से अलग हो जाता है, जैसे कि इसे कई तंत्र द्वारा उत्पादित किया गया था। प्रस्तुति में आसानी के लिए, यह डेटा ऑब्जेक्ट्स को सामान्य या अपेक्षित जानकारी के रूप में परिभाषित कर सकता है जो बाहरी नहीं हैं। आमतौर पर, यह आउटलेर्स को असामान्य डेटा के

  1. सांख्यिकीय डेटा माइनिंग के तरीके क्या हैं?

    सांख्यिकीय डेटा माइनिंग तकनीकों में, यह बड़ी मात्रा में डेटा के प्रभावी संचालन के लिए बनाया गया है जो आम तौर पर बहुआयामी और संभवतः कई जटिल प्रकार के होते हैं। डेटा विश्लेषण के लिए कई अच्छी तरह से स्थापित सांख्यिकीय विधियां हैं, खासकर संख्यात्मक डेटा के लिए। इन विधियों का व्यापक रूप से वैज्ञानिक रिक