डेटा माइनिंग सांख्यिकीय और गणितीय तकनीकों सहित पैटर्न पहचान तकनीकों का उपयोग करके, रिपॉजिटरी में सहेजे गए डेटा की एक उच्च मात्रा के माध्यम से उपयोगी नए सहसंबंध, पैटर्न और प्रवृत्तियों को खोजने की प्रक्रिया है। यह अनपेक्षित संबंधों की खोज करने के लिए तथ्यात्मक डेटासेट का विश्लेषण है और डेटा स्वामी के लिए तार्किक और सहायक दोनों तरह के नए तरीकों में रिकॉर्ड को सारांशित करना है।
यह डेटाबेस के मालिक के लिए स्पष्ट और लाभकारी परिणाम प्राप्त करने के लिए पहले अज्ञात नियमितताओं या संबंधों को खोजने के लिए उच्च मात्रा में जानकारी के चयन, अन्वेषण और मॉडलिंग की प्रक्रिया है।
डेटा माइनिंग डेटा साइंस के समान है। यह एक व्यक्ति द्वारा, एक विशेष स्थिति में, एक विशिष्ट डेटा सेट पर, एक उद्देश्य के साथ किया जाता है। इस चरण में टेक्स्ट माइनिंग, वेब माइनिंग, ऑडियो और वीडियो माइनिंग, सचित्र डेटा माइनिंग और सोशल मीडिया माइनिंग सहित कई प्रकार की सेवाएँ शामिल हैं। यह सॉफ्टवेयर के माध्यम से पूरा होता है जो सरल या बहुत विशिष्ट होता है।
मेटारुल्स उपयोगकर्ताओं को उन नियमों के वाक्यात्मक रूप को परिभाषित करने में सक्षम बनाता है जो वे खनन में शामिल हैं। खनन चरण की प्रभावशीलता में सुधार प्रदान करने के लिए नियम रूपों का उपयोग बाधाओं के रूप में किया जा सकता है। मेटारुल्स विश्लेषक के अनुभव, अपेक्षाओं, या डेटा से संबंधित अंतर्ज्ञान पर आधारित हो सकते हैं या स्वचालित रूप से उत्पन्न हो सकते हैं जो डेटाबेस स्कीमा पर निर्भर करता है।
मेटारूल-निर्देशित खनन - विचार करें कि AllElectronics के लिए एक बाजार विश्लेषक के रूप में, यह ग्राहकों (ग्राहक की आयु, पता और क्रेडिट रेटिंग सहित) और ग्राहक लेनदेन की सूची को परिभाषित करने वाले डेटा तक पहुंच प्राप्त कर सकता है।
यह ग्राहक लक्षणों और ग्राहकों द्वारा खरीदी जाने वाली वस्तुओं के बीच संबंध ढूंढ सकता है। हालांकि, इन संबंधों को दर्शाने वाले कुछ एसोसिएशन नियमों को खोजने के बजाय, यह केवल यह तय करने में रुचि रखता है कि कौन से ग्राहक लक्षण कार्यालय सॉफ़्टवेयर की बिक्री को बढ़ाते हैं।
ऐसे मेटारूल का एक उदाहरण है
प<उप>1उप> (एक्स, वाई)∧ पी<उप>2उप> (एक्स, डब्ल्यू) ⇒ खरीदता है (एक्स, "कार्यालय सॉफ्टवेयर")
जहां पी<उप>1उप> और पी<उप>2उप> विधेय चर हैं जो खनन चरण के दौरान दिए गए डेटाबेस से विशेषताओं के लिए त्वरित हैं, X एक ग्राहक को परिभाषित करने वाला एक चर है, और Y और W P1 को सौंपी गई विशेषताओं के मूल्यों को लेते हैं। और पी<उप>2उप> , तदनुसार।
आम तौर पर, उपयोगकर्ता P1 . के साथ तात्कालिकता के लिए व्यवहार की जाने वाली विशेषताओं की एक सूची को परिभाषित कर सकता है और पी<उप>2उप> . इसलिए, एक डिफ़ॉल्ट सेट का उपयोग किया जा सकता है।
सामान्य तौर पर, मेटारूल उन संबंधों के संबंध में एक परिकल्पना बनाता है जिसे उपयोगकर्ता अवधारणात्मक या पुष्टि में फंसाता है। डेटा माइनिंग सिस्टम दिए गए मेटारूल को जोड़ने वाले नियमों की खोज कर सकता है। उदाहरण के लिए,
आयु (एक्स, "30...39"), आय (एक्स, "41 के ... 60 के") ⇒ खरीदता है (एक्स, "कार्यालय सॉफ्टवेयर")