दूरी वह तरीका है जिससे एमबीआर समानता की गणना करता है। कुछ वास्तविक दूरी मीट्रिक के लिए, बिंदु A से बिंदु B तक की दूरी, d(A,B) द्वारा इंगित की गई है, जिसमें चार विशेषताएं हैं जो इस प्रकार हैं -
-
अच्छी तरह से परिभाषित - दो बिंदुओं के बीच की दूरी लगातार परिभाषित होती है और एक गैर-ऋणात्मक वास्तविक संख्या है, d (A,B) ≥ 0.
-
पहचान - एक बिंदु से स्वयं की दूरी लगातार शून्य होती है, इसलिए d (A, A) =0.
-
कम्यूटेटिविटी - दिशा कोई अंतर पैदा नहीं करती है, इसलिए ए से बी की दूरी बी से ए की दूरी के समान है:डी (ए, बी) =डी (बी, ए)। उदाहरण के लिए, यह सुविधा वन-वे सड़कों को रोकती है।
-
त्रिकोण असमानता - यह ए से बी की विधि पर एक मध्यवर्ती बिंदु सी पर जा सकता है, दूरी को कभी भी संपीड़ित नहीं करता है, इसलिए डी (ए, बी) डी (ए, सी) + डी (सी, बी)।
एमबीआर के लिए, अंक निश्चित रूप से एक डेटाबेस में डेटा हैं। दूरी का यह विवरण समानता की गणना का आधार है, लेकिन एमबीआर बहुत अच्छी तरह से काम करता है जब इनमें से कुछ बाधाओं को थोड़ा सा बना दिया जाता है।
उदाहरण के लिए, न्यूज स्टोरी डेफिनिशन केस स्टडी में डिस्टेंस फंक्शन परिवर्तनशील नहीं था जैसे कि न्यूज स्टोरी ए से दूसरे बी की दूरी लगातार बी से ए की दूरी के समान नहीं थी। लेकिन समानता माप वर्गीकरण उद्देश्यों के लिए फायदेमंद था। ।
तथ्य यह है कि दूरी अच्छी तरह से परिभाषित है, इसका मतलब है कि प्रत्येक डेटा में डेटाबेस में कहीं न कहीं एक पड़ोसी होता है और MBR को काम करने के लिए पड़ोसियों की आवश्यकता होती है। पहचान संपत्ति सहज अवधारणा के अनुरूप दूरी बनाती है कि किसी दिए गए डेटा के लिए सबसे समान डेटा प्रारंभिक रिकॉर्ड ही होता है।
कम्यूटेटिविटी और त्रिभुज असमानता निकटतम पड़ोसियों को स्थानीय और अच्छी तरह से परिभाषित करती है। यह डेटाबेस में एक नया डेटा डालने से मौजूदा रिकॉर्ड को कुछ करीब नहीं लाएगा। समानता एक समय में केवल दो डेटा के लिए आरक्षित मामला है। यद्यपि दूरी माप से निकटतम पड़ोसियों का पता लगाया जा सकता है, यह अच्छी तरह से परिभाषित है, निकटतम पड़ोसियों के समूह में कुछ विशिष्ट विशेषताएं हो सकती हैं।
पड़ोसी का सेट इस बात पर निर्भर करता है कि डेटा दूरी फ़ंक्शन क्षेत्र दूरी फ़ंक्शन को कैसे जोड़ता है। वास्तव में, योग फ़ंक्शन का उपयोग करने वाला दूसरा निकटतम पड़ोसी यूक्लिडियन आदि का उपयोग करने वाला सबसे दूर का पड़ोसी है। इसकी तुलना योग या सामान्यीकृत मीट्रिक से की जाती है, यूक्लिडियन मीट्रिक प्रभाव पड़ोसियों के पक्ष में है जहां सभी क्षेत्र सहयोगी रूप से करीब हैं।
योग, यूक्लिडियन और सामान्यीकृत कार्यों में वज़न भी शामिल हो सकते हैं, इसलिए प्रत्येक क्षेत्र डेटा दूरी फ़ंक्शन में एक अलग राशि का योगदान देता है। एमबीआर आम तौर पर अच्छे परिणाम देता है जब कुछ वजन 1 के समान होते हैं। हालांकि, कभी-कभी वजन का उपयोग प्राथमिक ज्ञान को शामिल करने के लिए किया जा सकता है, जिसमें वर्गीकरण पर एक बड़ा प्रभाव होने का संदेह एक विशिष्ट क्षेत्र भी शामिल है।