डेटा माइनिंग, पैटर्न पहचान तकनीकों के साथ-साथ सांख्यिकीय और गणितीय तकनीकों का उपयोग करके, रिपॉजिटरी में संग्रहीत बड़ी मात्रा में डेटा के माध्यम से सार्थक नए सहसंबंध, पैटर्न और प्रवृत्तियों की खोज करने की प्रक्रिया है।
यह अनपेक्षित संबंधों की खोज करने और डेटा स्वामी के लिए समझने योग्य और लाभकारी दोनों नई तकनीकों में रिकॉर्ड को सारांशित करने के लिए अवलोकन संबंधी डेटासेट का विश्लेषण है। डेटा माइनिंग के विभिन्न अनुप्रयोग हैं जो इस प्रकार हैं -
डेटा वेयरहाउस और डेटा प्रीप्रोसेसिंग - सूचना के आदान-प्रदान और डेटा माइनिंग के लिए डेटा वेयरहाउस आवश्यक हैं। भू-स्थानिक डेटा के क्षेत्र में, लेकिन, अब कोई वास्तविक भू-स्थानिक डेटा वेयरहाउस मौजूद नहीं है।
यह ऐसे गोदाम का निर्माण कर सकता है जिसके लिए भौगोलिक और अस्थायी डेटा असंगतताओं को हल करने के लिए साधन खोजने की आवश्यकता होती है, जैसे कि शब्दार्थ, संदर्भ प्रणाली, ज्यामिति, सटीकता और सटीकता को समेटना।
सामान्य रूप से गणितीय सॉफ़्टवेयर के लिए, विविध स्रोतों (विभिन्न समय-अवधि को कवर करने वाले डेटा सहित) से जानकारी को एकीकृत करने और गतिविधियों की पहचान करने के लिए विधियों की आवश्यकता होती है। उदाहरण के लिए, जलवायु और पारिस्थितिकी तंत्र डेटा के लिए (जो स्थानिक और अस्थायी हैं), समस्या यह है कि स्थानिक डोमेन में बहुत अधिक घटनाएं होती हैं और अस्थायी डोमेन में बहुत कम होती हैं।
जटिल डेटा प्रकारों का खनन - वैज्ञानिक डेटा सेट प्रकृति में विषम होते हैं, आम तौर पर अर्ध-संरचित और असंरचित डेटा होते हैं, जिसमें मल्टीमीडिया डेटा और भू-संदर्भित स्ट्रीम डेटा शामिल होते हैं। स्थानिक-अस्थायी डेटा, संबंधित अवधारणा पदानुक्रम, और जटिल भौगोलिक संबंधों (उदा., गैर-यूक्लिडियन दूरियां) को संभालने के लिए मजबूत तरीकों की आवश्यकता होती है।
ग्राफ-आधारित खनन - मौजूदा मॉडलिंग दृष्टिकोणों की सीमाओं के कारण कई भौतिक घटनाओं और प्रक्रियाओं को मॉडल करना अक्सर मुश्किल या असंभव होता है। वैकल्पिक रूप से, लेबल किए गए ग्राफ़ का उपयोग संख्यात्मक डेटा सेट में मौजूद कुछ स्थानिक, टोपोलॉजिकल, ज्यामितीय और अन्य संबंधपरक विशेषताओं को जीतने के लिए किया जा सकता है।
ग्राफ़ मॉडलिंग में, खनन किए जाने वाले प्रत्येक डेटा को ग्राफ़ में एक शीर्ष द्वारा वर्णित किया जाता है, और शीर्षों के बीच के किनारे वस्तुओं के बीच संबंधों का वर्णन करते हैं। उदाहरण के लिए, ग्राफ़ का उपयोग रासायनिक संरचनाओं और संख्यात्मक सिमुलेशन द्वारा उत्पन्न डेटा को मॉडल करने के लिए किया जा सकता है, जैसे कि द्रव-प्रवाह सिमुलेशन।
ग्राफ मॉडलिंग की सफलता, हालांकि, वर्गीकरण, लगातार पैटर्न खनन, और क्लस्टरिंग जैसे कई शास्त्रीय डेटा खनन कार्यों की मापनीयता और दक्षता में सुधार पर निर्भर करती है।
विज़ुअलाइज़ेशन टूल और डोमेन-विशिष्ट ज्ञान - संख्यात्मक डेटा माइनिंग सिस्टम के लिए उच्च-स्तरीय ग्राफिकल यूजर इंटरफेस और विज़ुअलाइज़ेशन टूल की आवश्यकता होती है। इन्हें मौजूदा डोमेन-विशिष्ट डेटा सिस्टम और डेटाबेस सिस्टम के साथ एकीकृत किया जाना चाहिए ताकि शोधकर्ताओं और सामान्य उपयोगकर्ताओं को डिज़ाइन की खोज करने, खोजे गए डिज़ाइनों की व्याख्या और कल्पना करने और उनके निर्णय लेने में खोजे गए ज्ञान का उपयोग करने में मार्गदर्शन किया जा सके।