अंतराल-स्केल किए गए चर लगभग रैखिक पैमाने के निरंतर डेटा हैं। एक उदाहरण जैसे वजन और ऊंचाई, अक्षांश और देशांतर निर्देशांक (जैसे, घरों को क्लस्टर करते समय), और मौसम का तापमान। उपयोग की जाने वाली माप इकाई क्लस्टरिंग विश्लेषण को प्रभावित कर सकती है।
उदाहरण के लिए, ऊंचाई के लिए मीटर से इंच में या वजन के लिए किलोग्राम से पाउंड में डेटा इकाइयों को बदलने से कई क्लस्टरिंग संरचना हो सकती है। सामान्य तौर पर, छोटी इकाइयों में एक चर को परिभाषित करने से उस चर के लिए एक उच्च श्रेणी प्राप्त होगी, और इसलिए परिणामी क्लस्टरिंग आर्किटेक्चर पर एक बड़ा प्रभाव होगा।
यह डेटा इकाइयों की पसंद पर निर्भरता को रोक सकता है, डेटा को मानकीकृत किया जाना चाहिए। मापन का मानकीकरण सभी चरों को समान भार प्रदान करने का प्रयास करता है। यह विशेष रूप से तब उपयोगी होता है जब डेटा का कोई पूर्व ज्ञान नहीं दिया जाता है। लेकिन कुछ अनुप्रयोगों में, उपयोगकर्ताओं को जानबूझकर दूसरों की तुलना में चर के एक विशिष्ट सेट को अधिक वजन प्रदान करने की आवश्यकता हो सकती है। उदाहरण के लिए, बास्केटबॉल खिलाड़ी उम्मीदवारों को समूहबद्ध करते समय, यह चर ऊंचाई को अधिक भार प्रदान करना पसंद कर सकता है।
यह डेटा को मानकीकृत कर सकता है, एक विकल्प मूल डेटा को इकाई कम चर में संशोधित करना है। चर f के लिए दिए गए मापन को इस प्रकार कार्यान्वित किया जा सकता है -
माध्य निरपेक्ष विचलन की गणना करें, sf -
$$\mathrm{s_{f}\:=\:\frac{1}{n}(|x_{1f}-m_{f}|+|x_{2f}-m_{f}|+\cdot\ cdot\cdot+|x_{nf}-m_{f}|)}$$
जहां x1f ... x<उप>एनएफउप> f के n माप हैं, और mf f का माध्य मान है, अर्थात् $\mathrm{m_{f}\:=\:\frac{1}{n}(|x_{1f}|+|x_{2f}|+\cdot\cdot \cdot+|x_{nf}|)}$
मानकीकृत माप की गणना करें, या z-score -
$$\mathrm{z_{if}\:=\:\frac{x_{if}-m_{f}}{s_{f}}}$$
औसत निरपेक्ष विचलन, sf , मानक विचलन की तुलना में बाहरी लोगों के लिए शक्तिशाली है, $\mathrm{\sigma_{f}}$। माध्य निरपेक्ष विचलन की गणना करते समय, माध्य $\mathrm{(|x_{1f}-m_{f}|)}$ से विचलन को चुकता नहीं किया जाता है।
इसलिए, बाहरी लोगों का प्रभाव कम हो जाता है। औसत निरपेक्ष विचलन सहित, फैलाव के शक्तिशाली उपाय हैं। माध्य निरपेक्ष विचलन का उपयोग करने का लाभ यह है कि आउटलेर्स का z-स्कोर बहुत छोटा नहीं आता है; इसलिए, बाहरी लोगों का पता लगाया जा सकता है।
मानकीकरण किसी विशिष्ट अनुप्रयोग में सहायक हो भी सकता है और नहीं भी। इसलिए मानकीकरण को लागू करने या नहीं करने का विकल्प उपयोगकर्ता पर छोड़ दिया जाना चाहिए। मानकीकरण के बाद, या विशिष्ट अनुप्रयोगों में मानकीकरण के बिना, अंतराल-स्केल किए गए चर द्वारा परिभाषित वस्तुओं के बीच असमानता (या समानता) की गणना आमतौर पर वस्तुओं के प्रत्येक समूह के बीच की दूरी के आधार पर की जाती है।
प्रसिद्ध दूरी माप यूक्लिडियन दूरी है, जिसे
. के रूप में दर्शाया गया है$$\mathrm{d(i, j)=\sqrt{(X_{i1}-X_{j1}})^2+{(X_{i2}-X_{j2}})^2+...+ {(X_{in}-X_{jn}})^2}$$
जहाँ मैं =(x<उप>i1उप> , xi2 , ... x<उप>मेंउप> ) और j =(xj1 , xj2 , ... x<उप>जेएनउप> ) दो n-आयामी डेटा ऑब्जेक्ट हैं। एक अन्य प्रसिद्ध मीट्रिक मैनहट्टन (या शहर ब्लॉक) दूरी है, जिसे
. के रूप में वर्णित किया गया है$$\mathrm{d(i, j)=|X_{i1}-X_{j1}|+ |(X_{i2}-X_{j2}|+...+|(X_{in}-X_{ jn}|}$$
यूक्लिडियन दूरी और मैनहट्टन दूरी दोनों ही दूरी फलन की निम्नलिखित संख्यात्मक आवश्यकताओं को पूरा करते हैं -
-
d(i, j) 0:दूरी एक गैर-ऋणात्मक संख्या है।
-
d(i, i) =0:किसी वस्तु की स्वयं से दूरी 0 है।
-
d(i, j) =d(j, i):दूरी एक सममित फलन है।
-
d(i, j) d(i, h)+d(h, j):यह सीधे वस्तु i से वस्तु की ओर जा रहा है j अंतरिक्ष में किसी अन्य वस्तु h (त्रिकोणीय असमानता) पर चक्कर लगाने से ज्यादा कुछ नहीं है।