डेटा माइनिंग सांख्यिकीय और गणितीय तकनीकों सहित पैटर्न पहचान तकनीकों का उपयोग करके, रिपॉजिटरी में सहेजे गए डेटा की एक उच्च मात्रा के माध्यम से साझा करके उपयोगी नए सहसंबंध, पैटर्न और प्रवृत्तियों को खोजने की प्रक्रिया है। यह अनपेक्षित संबंधों की खोज करने के लिए तथ्यात्मक डेटासेट का विश्लेषण है और डेटा स्वामी के लिए तार्किक और सहायक दोनों तरह के नए तरीकों में रिकॉर्ड को सारांशित करना है।
यह डेटाबेस के मालिक के लिए स्पष्ट और लाभकारी परिणाम प्राप्त करने के लिए पहले अज्ञात नियमितताओं या संबंधों को खोजने के लिए उच्च मात्रा में जानकारी के चयन, अन्वेषण और मॉडलिंग की प्रक्रिया है।
यह कंप्यूटर एल्गोरिदम या सांख्यिकीय तकनीकों के उपयोग तक सीमित नहीं है। यह व्यावसायिक खुफिया की एक प्रक्रिया है जिसका उपयोग कंपनी के निर्णयों का समर्थन करने के लिए सूचना प्रौद्योगिकी के साथ किया जा सकता है।
डेटा माइनिंग डेटा साइंस के समान है। यह एक व्यक्ति द्वारा, एक विशेष स्थिति में, एक विशिष्ट डेटा सेट पर, एक उद्देश्य के साथ किया जाता है। इस चरण में टेक्स्ट माइनिंग, वेब माइनिंग, ऑडियो और वीडियो माइनिंग, सचित्र डेटा माइनिंग और सोशल मीडिया माइनिंग सहित कई प्रकार की सेवाएँ शामिल हैं। यह सॉफ्टवेयर के माध्यम से पूरा होता है जो सरल या बहुत विशिष्ट होता है।
बड़ी मात्रा में डेटा की व्यापक उपलब्धता और इस तरह के डेटा को लाभकारी डेटा और ज्ञान में बदलने के लिए आसन्न होने के कारण, डेटा माइनिंग ने वर्तमान वर्षों में संपूर्ण रूप से सूचना बाजार और समाज में बहुत अधिक ध्यान आकर्षित किया है। प्राप्त जानकारी और ज्ञान का उपयोग उद्योग विश्लेषण, धोखाधड़ी का पता लगाने और उपयोगकर्ता प्रतिधारण से लेकर उत्पादन नियंत्रण और विज्ञान अन्वेषण तक के सॉफ़्टवेयर के लिए किया जा सकता है।
डेटा माइनिंग को डेटा प्रौद्योगिकी की प्राकृतिक प्रगति के परिणाम के रूप में माना जा सकता है। डेटाबेस सिस्टम मार्केट ने डेटा संग्रह और डेटाबेस निर्माण, डेटा प्रबंधन और उन्नत डेटा विश्लेषण सहित निम्नलिखित कार्यात्मकताओं के विकास में एक विकासवादी दिशा का समर्थन किया है।
उदाहरण के लिए, डेटा संग्रह और डेटाबेस निर्माण संरचना का हालिया विकास डेटा भंडारण और पुनर्प्राप्ति, और क्वेरी और लेनदेन प्रसंस्करण के लिए एक प्रभावी संरचना के बाद के विकास के लिए आवश्यक था। सामान्य अभ्यास के रूप में क्वेरी और लेनदेन प्रसंस्करण प्रदान करने वाले विभिन्न डेटाबेस सिस्टम के साथ, उन्नत डेटा विश्लेषण अगले ऑब्जेक्ट में विकसित हुआ है।
डेटा को कई प्रकार के डेटाबेस और डेटा रिपॉजिटरी में सहेजा जा सकता है। डेटा वेयरहाउस में दिखाई देने वाली एक डेटा रिपॉजिटरी संरचना, प्रबंधन निर्णय लेने में सहायता के लिए एक व्यक्तिगत साइट पर एकीकृत स्कीमा के तहत आयोजित कई विषम डेटा स्रोतों का भंडार।
डेटा वेयरहाउस तकनीक में डेटा क्लीनिंग, डेटा इंटीग्रेशन और ऑनलाइन एनालिटिकल प्रोसेसिंग (OLAP) शामिल है, विशेष रूप से, विश्लेषण तकनीक जिसमें सारांश, समेकन, और एकत्रीकरण, और कई कोणों से डेटा देखने की क्षमता शामिल है।