डेटा माइनिंग सांख्यिकीय और गणितीय तकनीकों सहित पैटर्न पहचान तकनीकों का उपयोग करके, रिपॉजिटरी में सहेजे गए डेटा की एक उच्च मात्रा के माध्यम से उपयोगी नए सहसंबंध, पैटर्न और प्रवृत्तियों को खोजने की प्रक्रिया है। यह अनपेक्षित संबंधों की खोज करने के लिए तथ्यात्मक डेटासेट का विश्लेषण है और डेटा स्वामी के लिए तार्किक और सहायक दोनों तरह के नए तरीकों में रिकॉर्ड को सारांशित करना है।
यह डेटाबेस के मालिक के लिए स्पष्ट और लाभकारी परिणाम प्राप्त करने के लिए पहले अज्ञात नियमितताओं या संबंधों को खोजने के लिए उच्च मात्रा में जानकारी के चयन, अन्वेषण और मॉडलिंग की प्रक्रिया है।
डेटा माइनिंग डेटा साइंस के समान है। यह एक व्यक्ति द्वारा, एक विशेष स्थिति में, एक विशिष्ट डेटा सेट पर, एक उद्देश्य के साथ किया जाता है। इस चरण में टेक्स्ट माइनिंग, वेब माइनिंग, ऑडियो और वीडियो माइनिंग, सचित्र डेटा माइनिंग और सोशल मीडिया माइनिंग सहित कई प्रकार की सेवाएँ शामिल हैं। यह सॉफ्टवेयर के माध्यम से पूरा होता है जो सरल या बहुत विशिष्ट होता है।
डेटा माइनिंग को आउटसोर्स करके, कम परिचालन लागत के साथ सभी काम तेजी से किए जा सकते हैं। विशिष्ट फर्म डेटा को बचाने के लिए नई तकनीकों का भी उपयोग कर सकती हैं जिन्हें मैन्युअल रूप से खोजना असंभव है। कई प्लेटफार्मों पर टन डेटा उपलब्ध है, लेकिन बहुत सीमित ज्ञान उपलब्ध है।
डेटा में उपयोगी पैटर्न खोजने के दृष्टिकोण को कई नाम दिए गए हैं, जिसमें डेटा माइनिंग, नॉलेज एक्सट्रैक्शन, डेटा डिस्कवरी, डेटा हार्वेस्टिंग, डेटा आर्कियोलॉजी और डेटा पैटर्न प्रोसेसिंग शामिल हैं। डेटा माइनिंग का उपयोग सांख्यिकीविदों, डेटा विश्लेषकों और प्रबंधन सूचना प्रणाली (MIS) समुदायों द्वारा किया गया है।
इसने डेटाबेस क्षेत्र में लोकप्रियता में भी सुधार किया है। डेटाबेस में ज्ञान की खोज की प्रक्रिया का आविष्कार 1989 में पहली केडीडी कार्यशाला (पिएट्स्की-शापिरो 1991) में किया गया था ताकि यह बनाए रखा जा सके कि ज्ञान डेटा-संचालित खोज का अंतिम उत्पाद है। इसे कृत्रिम बुद्धि और मशीन सीखने के क्षेत्रों में लोकप्रिय बनाया गया है।
KDD डेटा से उपयोगी ज्ञान की खोज की पूरी प्रक्रिया को परिभाषित करता है, और डेटा माइनिंग इस प्रक्रिया में एक विशिष्ट चरण को परिभाषित करता है। डेटा माइनिंग डेटा से पैटर्न निकालने के लिए विशिष्ट एल्गोरिदम का अनुप्रयोग है। KDD प्रक्रिया और डेटा-खनन चरण (प्रक्रिया के भीतर) के बीच का अंतर इस वस्तु का एक केंद्रीय बिंदु है।
केडीडी प्रक्रिया में आगे के चरण, जिसमें डेटा तैयार करना, डेटा चयन, डेटा सफाई, उपयुक्त पूर्व ज्ञान का समावेश और खनन के परिणामों का उचित विश्लेषण शामिल हैं, यह प्रदान करने के लिए महत्वपूर्ण हैं कि उपयोगी ज्ञान डेटा से बदल दिया गया है।
डेटा-माइनिंग तकनीकों का अंधाधुंध अनुप्रयोग (सांख्यिकीय साहित्य में डेटा ड्रेजिंग के रूप में सही रूप से अस्वीकृत) एक खतरनाक गतिविधि हो सकती है, जिससे आसानी से अर्थहीन और अमान्य डिज़ाइनों की खोज हो सकती है।