समानता के उपाय वह ढांचा प्रदान करते हैं जिस पर कुछ डेटा माइनिंग निर्णय आधारित होते हैं। वर्गीकरण और क्लस्टरिंग सहित कार्य आम तौर पर कुछ समानता माप के अस्तित्व पर विचार करते हैं, जबकि समानता का मूल्यांकन करने के लिए खराब तकनीकों वाले क्षेत्र अक्सर पाते हैं कि जानकारी खोजना एक बोझिल कार्य है।
समानता उपायों के कई अनुप्रयोग इस प्रकार हैं -
सूचना पुनर्प्राप्ति - सूचना पुनर्प्राप्ति (IR) सिस्टम का लक्ष्य उपयोगकर्ता की जरूरतों को पूरा करना है। दूसरे शब्दों में, एक आवश्यकता आम तौर पर ऑनलाइन कुछ खोज इंजन के टेक्स्ट बॉक्स में पेश की गई एक छोटी टेक्स्ट क्वेरी के रूप में प्रकट होती है। IR सिस्टम आम तौर पर सीधे किसी प्रश्न का उत्तर नहीं देते हैं, इसके बजाय, वे रिकॉर्ड की एक रैंक की गई सूची प्रस्तुत करते हैं, जिन्हें किसी समानता के उपाय द्वारा उस क्वेरी से प्रासंगिक माना जाता है।
क्योंकि समानता उपायों का प्रभाव किसी क्वेरी से संबंधित जानकारी को समूहबद्ध और वर्गीकृत करने का होता है, उपयोगकर्ताओं को आमतौर पर उनकी जानकारी की आवश्यकता की नई व्याख्याएं मिलेंगी जो उनकी क्वेरी को सुधारते समय उनके लिए उपयोगी हो भी सकती हैं और नहीं भी।
मामले में जब क्वेरी प्रारंभिक सेट से एक रिकॉर्ड है, समानता उपायों का उपयोग संग्रह के भीतर रिकॉर्ड को क्लस्टर और वर्गीकृत करने के लिए किया जा सकता है। संक्षेप में, समानता के उपाय पहले के असंरचित सेटों में एक अल्पविकसित वास्तुकला सम्मिलित कर सकते हैं।
प्रेरणा
IR सिस्टम में उपयोग किए जाने वाले समानता के उपाय पूरे डेटा सेट के बारे में किसी की धारणा को विकृत कर सकते हैं। उदाहरण के लिए, यदि कोई उपयोगकर्ता किसी खोज इंजन में कोई क्वेरी टाइप करता है और शीर्ष दस वेब पेजों में संतोषजनक उत्तर नहीं पाता है, तो वह आमतौर पर एक या दो बार इस क्वेरी को सुधारने का प्रयास करेगा।
क्लासिक समानता उपाय
एक समानता माप को k आकार के टुपल्स की एक जोड़ी से एक अदिश संख्या के मानचित्रण के रूप में परिभाषित किया गया है। परंपरा के अनुसार, सभी समानता उपायों को [-1, 1] या [0, 1] श्रेणी में मैप किया जाना चाहिए, जहां 1 का समानता स्कोर अधिकतम समानता को दर्शाता है। समानता माप को उन विशेषताओं को प्रदर्शित करना चाहिए जो दो वस्तुओं में कई गुणों की तुलना में वृद्धि के रूप में उनके मूल्य में वृद्धि होगी।
पासा
पासा गुणांक सटीक और याद उपायों के हार्मोनिक माध्य का सामान्यीकरण है। एक उच्च हार्मोनिक माध्य वाली प्रणाली को सैद्धांतिक रूप से एक आदर्श पुनर्प्राप्ति प्रणाली के करीब होना चाहिए जिसमें यह उच्च स्तर के रिकॉल पर उच्च परिशुद्धता मूल्यों का प्रबंधन कर सके। सटीक और याद करने के लिए हार्मोनिक माध्य
. द्वारा दिया गया है$$E=\frac{2}{\frac{1}{P}+\frac{1}{R}}$$
जबकि पासा गुणांक
. द्वारा निरूपित किया जाता है$$sim(d,d_{j})=D(A,B)=\frac{|A\cap B|}{\alpha|A|+(1-\alpha)|B|}\cong \frac {\propto \sum_{k=1}^{n}w_{kq}w_{kj}}{\propto \sum_{k=1}^{n}\mathrm{w}_{kq}^{2} +(1-\propto)\sum_{k=1}^{n}\mathrm{w}_{kj}^{2}}$$
α [0, 1] के साथ। यह प्रदर्शित कर सकता है कि पासा गुणांक एक भारित हार्मोनिक माध्य है, मान लीजिए α =½।
ओवरलैप
ओवरलैप गुणांक उस डिग्री को तय करने का प्रयास करता है जिसमें दो सेट ओवरलैप होते हैं। ओवरलैप गुणांक की तुलना इस प्रकार की जाती है
$$sim(d,d_{j})=D(A,B)=\frac{|A\cap B|}{min(|A|,|B|)}\cong \frac{\propto \sum_ {k=1}^{n}w_{kq}w_{kj}}{\propto \sum_{k=1}^{n}\mathrm{w}_{kq}^{2}+\sum_{k =1}^{n}\mathrm{w}_{kj}^{2}}$$
ओवरलैप गुणांक की गणना न्यूनतम के स्थान पर अधिकतम ऑपरेटर का उपयोग करके की जाती है।