रिलेशनल डेटाबेस सिस्टम काउंट (), सम (), औसत (), मैक्स () और मिन () जैसे पांच बिल्ट-इन एग्रीगेट फ़ंक्शंस का समर्थन करता है। इन समग्र कार्यों का उपयोग बहुआयामी जानकारी के वर्णनात्मक खनन में बुनियादी उपायों के रूप में किया जा सकता है। दो वर्णनात्मक सांख्यिकीय उपाय हैं जैसे केंद्रीय प्रवृत्ति के उपाय और डेटा फैलाव के उपाय उच्च बहुआयामी डेटाबेस में प्रभावी ढंग से उपयोग किए जा सकते हैं।
केंद्रीय प्रवृत्ति के उपाय - केंद्रीय प्रवृत्ति के माप जैसे माध्य, माध्यिका, बहुलक और मध्य-श्रेणी।
माध्य - अंकगणितीय औसत का मूल्यांकन केवल सभी मानों को एक साथ सम्मिलित करके और उन्हें मानों की संख्या से विभाजित करके किया जाता है। यह हर एक मान से डेटा का उपयोग करता है। चलो x1 , x2 ,... xn वेतन जैसे एन मूल्यों या टिप्पणियों का एक सेट हो। मूल्यों के इस सेट का माध्य है
$$\mathrm{X^\prime\:=\:\frac{\sum_{i=1}^N\:X_i}{N}\:=\:\frac{X_1+X_2\:\dotsm\:X_n}{N}}$$
यह रिलेशनल डेटाबेस सिस्टम में समर्थित असेम्बल्ड एग्रीगेट फंक्शन, एवरेज (औसत ()) से मेल खाती है। कई डेटा क्यूब्स में, योग और गणना पूर्व-गणना में सहेजी जाती है। इसलिए, औसत की व्युत्पत्ति सीधी है।
$\mathrm{औसत\:=\:\frac{sum}{गिनती}}$
औसत - मूल्यों के वितरण के आधार पर माध्यिका की गणना करने के दो तरीके हैं।
अगर x1 , x2 , .... xn अवरोही क्रम में व्यवस्थित हैं और n विषम है। इस प्रकार माध्यिका है
$$\mathrm{\left(\frac{n+1}{2}\right)^{th}\:value}$$
उदाहरण के लिए, 1, 4, 6, 7, 12, 14, 18
माध्यिका =7
जब n सम है। तब माध्यिका है
$$\mathrm{\frac{\left(\frac{n}{2}\right)^{th}value\:+\:\left(\frac{n}{2}\:+\:1\ दाएं)^{वें} मान}{2}}$$
उदाहरण के लिए, 1, 4, 6, 7, 8, 12, 14, 16.
$$\mathrm{Median\:=\:\frac{7+8}{2}\:=\:7.5}$$
माध्यिका न तो वितरणात्मक माप है और न ही बीजीय माप, यह समग्र माप है। हालांकि यह केवल एक विशाल डेटाबेस में सटीक माध्यिका मान का मूल्यांकन करने के लिए नहीं है, एक अनुमानित माध्यिका की प्रभावी रूप से गणना की जा सकती है।
मोड - यह मूल्यों के एक समूह में सबसे सामान्य मूल्य है। वितरण यूनिमॉडल, बिमोडल या मल्टीमॉडल हो सकते हैं। यदि डेटा श्रेणीबद्ध है (नाममात्र पैमाने पर मापा जाता है) तो केवल मोड की गणना की जा सकती है। मोड की गणना क्रमिक और उच्च डेटा के साथ भी की जा सकती है, लेकिन यह उपयुक्त नहीं है।
डेटा के फैलाव को मापना - जिस डिग्री तक संख्यात्मक जानकारी फैलती है उसे डेटा के फैलाव या भिन्नता के रूप में जाना जाता है। डेटा फैलाव के सबसे लगातार उपाय रेंज, इंटरक्वेर्टाइल रेंज और मानक व्युत्पत्तियां हैं।
श्रेणी - रेंज को डेटा के सेट में सबसे बड़े मान और सबसे छोटे मान के बीच के अंतर के रूप में दर्शाया जाता है।
$$\mathrm{रेंज\:=\:X_L-X_S}$$
कहां
$\mathrm{X_L\:\rightarrow\:सबसे बड़ा मान}$
$\mathrm{X_S\:\rightarrow\:सबसे छोटा मान}$
चतुर्थक - माध्यिका के अलावा अन्य सबसे सामान्य प्रतिशतक चतुर्थक हैं। Q1 . द्वारा दर्शाया गया पहला चतुर्थक 25 वें . है पर्सेंटाइल, तीसरा चतुर्थक Q3 . द्वारा दर्शाया गया है 75 वें . है शतमक माध्यिका वाले चतुर्थक, केंद्र के कुछ संकेत प्रदान करते हैं, एक चतुर्थक का फैलाव और आकार, प्रसार का एक सरल उपाय है जो डेटा के मध्य भाग द्वारा कवर की गई सीमा प्रदान करता है। इसे इंटरक्वेर्टाइल रेंज (IQR) के रूप में जाना जाता है और इसे -
. के रूप में परिभाषित किया जाता है$$\mathrm{IQR\:=\:Q_{3}-Q_{1}}$$
मानक विचलन - जब विचलन मानों को विचरण में चुकता किया जाता है, तो उनकी माप की इकाई भी चुकता हो जाती है।