एसोसिएशन विश्लेषण एल्गोरिदम में बड़ी संख्या में पैटर्न बनाने की संभावना है। उदाहरण के लिए, हालांकि डेटा सेट में केवल छह आइटम शामिल हैं, यह विशिष्ट समर्थन और विश्वास सीमा पर हजारों एसोसिएशन नियम बना सकता है। चूंकि वास्तविक मौद्रिक डेटाबेस का आकार और आयाम बड़ा हो सकता है, वे आसानी से हजारों या लाखों पैटर्न के साथ समाप्त हो सकते हैं, जिनमें से कुछ दिलचस्प नहीं हो सकते हैं।
यह पैटर्न के माध्यम से विश्लेषणात्मक है सबसे दिलचस्प लोगों को पहचानने के लिए एक तुच्छ सेवा नहीं है क्योंकि एक व्यक्ति का कचरा दूसरे व्यक्ति का खजाना हो सकता है। एसोसिएशन पैटर्न की गुणवत्ता की गणना के लिए अच्छी तरह से स्वीकृत विधियों का एक सेट बनाना आवश्यक है।
मानदंड का पहला सेट सांख्यिकीय तर्कों के माध्यम से बनाया जा सकता है। पैटर्न जिसमें पारस्परिक रूप से अलग-अलग वस्तुओं का समूह शामिल होता है या कई लेन-देन को कवर करता है, उन्हें रुचिकर नहीं माना जाता है क्योंकि वे डेटा में नकली जुड़ाव ले सकते हैं।
इस तरह के पैटर्न को एक उद्देश्य दिलचस्प भाग का उपयोग करके हटाया जा सकता है जो यह तय करने के लिए डेटा से प्राप्त आंकड़ों का उपयोग करता है कि कोई पैटर्न दिलचस्प है या नहीं। समर्थन, आत्मविश्वास और सहसंबंध जैसे वस्तुनिष्ठ रुचिकर उपायों के उदाहरण।
मानदंड का दूसरा सेट व्यक्तिपरक तर्कों के माध्यम से बनाया जा सकता है। एक पैटर्न को विषयगत रूप से रुचिकर नहीं माना जाता है जब तक कि वह डेटा के बारे में अनपेक्षित डेटा को स्वीकार नहीं करता है या लाभकारी ज्ञान का समर्थन करता है जो लाभदायक सेवाओं को जन्म दे सकता है।
उदाहरण के लिए, नियम {बटर} → {ब्रेड} दिलचस्प नहीं हो सकता, भले ही उसके पास उच्च समर्थन और विश्वास मूल्य हों, क्योंकि नियम द्वारा परिभाषित संबंध अपेक्षाकृत स्पष्ट दिखाई दे सकते हैं।
दूसरे शब्दों में, नियम {डायपर}}→{{बीयर} दिलचस्प है क्योंकि संबंध अप्रत्याशित है और खुदरा विक्रेताओं के लिए एक नई क्रॉस-सेलिंग घटना की सलाह दे सकता है। पैटर्न गणना में व्यक्तिपरक ज्ञान को शामिल करना एक जटिल कार्य है क्योंकि इसके लिए डोमेन विशेषज्ञों से काफी मात्रा में पिछले डेटा की आवश्यकता होती है।
पैटर्न खोज कार्य में पक्षपाती ज्ञान को शामिल करने के लिए निम्नलिखित कई दृष्टिकोण हैं जो इस प्रकार हैं -
विज़ुअलाइज़ेशन - मानव उपयोगकर्ता को लूप में बनाए रखने के लिए इस दृष्टिकोण को उपयोगकर्ता के अनुकूल वातावरण की आवश्यकता है। यह डोमेन विशेषज्ञों को खोजे गए पैटर्न को क्रियान्वित और परीक्षण करके डेटा माइनिंग सिस्टम से जुड़ने में सक्षम बनाता है।
टेम्पलेट-आधारित दृष्टिकोण - यह दृष्टिकोण उपयोगकर्ताओं को खनन एल्गोरिथम द्वारा कॉपी किए गए पैटर्न के प्रकार को बाधित करने में सक्षम बनाता है। सभी निकाले गए नियमों का दस्तावेजीकरण करने के बजाय, केवल वे नियम जिन्हें उपयोगकर्ता-निर्दिष्ट टेम्पलेट की आवश्यकता होती है, उन्हें उपयोगकर्ताओं के लिए पुनर्स्थापित किया जाता है।
व्यक्तिपरक रुचि का माप - अवधारणा पदानुक्रम या तत्वों की लाभ सीमा सहित डोमेन डेटा के आधार पर एक व्यक्तिपरक माप का प्रतिनिधित्व किया जा सकता है। माप का उपयोग उन पैटर्न को फ़िल्टर करने के लिए किया जा सकता है जो पहुंच योग्य और गैर-क्रियात्मक हैं।