बड़े डेटाबेस में सांख्यिकीय उपाय क्या हैं?

<घंटा/>

रिलेशनल डेटाबेस सिस्टम काउंट (), सम (), औसत (), मैक्स () और मिन () जैसे पांच बिल्ट-इन एग्रीगेट फ़ंक्शंस का समर्थन करता है। इन समग्र कार्यों का उपयोग बहुआयामी जानकारी के वर्णनात्मक खनन में बुनियादी उपायों के रूप में किया जा सकता है। दो वर्णनात्मक सांख्यिकीय उपाय हैं जैसे केंद्रीय प्रवृत्ति के उपाय और डेटा फैलाव के उपाय उच्च बहुआयामी डेटाबेस में प्रभावी ढंग से उपयोग किए जा सकते हैं।

केंद्रीय प्रवृत्ति के उपाय - केंद्रीय प्रवृत्ति के माप जैसे माध्य, माध्यिका, बहुलक और मध्य-श्रेणी।

माध्य - अंकगणितीय औसत का मूल्यांकन केवल सभी मानों को एक साथ सम्मिलित करके और उन्हें मानों की संख्या से विभाजित करके किया जाता है। यह हर एक मान से डेटा का उपयोग करता है। चलो x₁ , x₂ ,... x_n वेतन जैसे एन मूल्यों या टिप्पणियों का एक सेट हो। मूल्यों के इस सेट का माध्य है

$$\mathrm{X^\prime\:=\:\frac{\sum_{i=1}^N\:X_i}{N}\:=\:\frac{X_1+X_2\:\dotsm\:X_n}{N}}$$

यह रिलेशनल डेटाबेस सिस्टम में समर्थित असेम्बल्ड एग्रीगेट फंक्शन, एवरेज (औसत ()) से मेल खाती है। कई डेटा क्यूब्स में, योग और गणना पूर्व-गणना में सहेजी जाती है। इसलिए, औसत की व्युत्पत्ति सीधी है।

$\mathrm{औसत\:=\:\frac{sum}{गिनती}}$

औसत - मूल्यों के वितरण के आधार पर माध्यिका की गणना करने के दो तरीके हैं।

अगर x₁ , x₂ , .... x_n अवरोही क्रम में व्यवस्थित हैं और n विषम है। इस प्रकार माध्यिका है

$$\mathrm{\left(\frac{n+1}{2}\right)^{th}\:value}$$

उदाहरण के लिए, 1, 4, 6, 7, 12, 14, 18

माध्यिका =7

जब n सम है। तब माध्यिका है

$$\mathrm{\frac{\left(\frac{n}{2}\right)^{th}value\:+\:\left(\frac{n}{2}\:+\:1\ दाएं)^{वें} मान}{2}}$$

उदाहरण के लिए, 1, 4, 6, 7, 8, 12, 14, 16.

$$\mathrm{Median\:=\:\frac{7+8}{2}\:=\:7.5}$$

माध्यिका न तो वितरणात्मक माप है और न ही बीजीय माप, यह समग्र माप है। हालांकि यह केवल एक विशाल डेटाबेस में सटीक माध्यिका मान का मूल्यांकन करने के लिए नहीं है, एक अनुमानित माध्यिका की प्रभावी रूप से गणना की जा सकती है।

मोड - यह मूल्यों के एक समूह में सबसे सामान्य मूल्य है। वितरण यूनिमॉडल, बिमोडल या मल्टीमॉडल हो सकते हैं। यदि डेटा श्रेणीबद्ध है (नाममात्र पैमाने पर मापा जाता है) तो केवल मोड की गणना की जा सकती है। मोड की गणना क्रमिक और उच्च डेटा के साथ भी की जा सकती है, लेकिन यह उपयुक्त नहीं है।

डेटा के फैलाव को मापना - जिस डिग्री तक संख्यात्मक जानकारी फैलती है उसे डेटा के फैलाव या भिन्नता के रूप में जाना जाता है। डेटा फैलाव के सबसे लगातार उपाय रेंज, इंटरक्वेर्टाइल रेंज और मानक व्युत्पत्तियां हैं।

श्रेणी - रेंज को डेटा के सेट में सबसे बड़े मान और सबसे छोटे मान के बीच के अंतर के रूप में दर्शाया जाता है।

$$\mathrm{रेंज\:=\:X_L-X_S}$$

कहां

$\mathrm{X_L\:\rightarrow\:सबसे बड़ा मान}$

$\mathrm{X_S\:\rightarrow\:सबसे छोटा मान}$

चतुर्थक - माध्यिका के अलावा अन्य सबसे सामान्य प्रतिशतक चतुर्थक हैं। Q₁ . द्वारा दर्शाया गया पहला चतुर्थक 25^वें . है पर्सेंटाइल, तीसरा चतुर्थक Q₃ . द्वारा दर्शाया गया है 75^वें . है शतमक माध्यिका वाले चतुर्थक, केंद्र के कुछ संकेत प्रदान करते हैं, एक चतुर्थक का फैलाव और आकार, प्रसार का एक सरल उपाय है जो डेटा के मध्य भाग द्वारा कवर की गई सीमा प्रदान करता है। इसे इंटरक्वेर्टाइल रेंज (IQR) के रूप में जाना जाता है और इसे -

. के रूप में परिभाषित किया जाता है

$$\mathrm{IQR\:=\:Q_{3}-Q_{1}}$$

मानक विचलन - जब विचलन मानों को विचरण में चुकता किया जाता है, तो उनकी माप की इकाई भी चुकता हो जाती है।