डेटा माइनिंग सांख्यिकीय और गणितीय तकनीकों सहित पैटर्न पहचान तकनीकों का उपयोग करके, रिपॉजिटरी में सहेजे गए डेटा की एक उच्च मात्रा के माध्यम से उपयोगी नए सहसंबंध, पैटर्न और प्रवृत्तियों को खोजने की प्रक्रिया है। यह अनपेक्षित संबंधों की खोज करने के लिए तथ्यात्मक डेटासेट का विश्लेषण है और डेटा स्वामी के लिए तार्किक और सहायक दोनों तरह के नए तरीकों में रिकॉर्ड को सारांशित करना है।
यह डेटाबेस के मालिक के लिए स्पष्ट और लाभकारी परिणाम प्राप्त करने के लिए पहले अज्ञात नियमितताओं या संबंधों को खोजने के लिए उच्च मात्रा में जानकारी के चयन, अन्वेषण और मॉडलिंग की प्रक्रिया है।
डेटा माइनिंग डेटा साइंस के समान है। यह एक व्यक्ति द्वारा, एक विशेष स्थिति में, एक विशिष्ट डेटा सेट पर, एक उद्देश्य के साथ किया जाता है। इस चरण में टेक्स्ट माइनिंग, वेब माइनिंग, ऑडियो और वीडियो माइनिंग, सचित्र डेटा माइनिंग और सोशल मीडिया माइनिंग सहित कई प्रकार की सेवाएँ शामिल हैं। यह सॉफ्टवेयर के माध्यम से पूरा होता है जो सरल या बहुत विशिष्ट होता है।
डेटा माइनिंग को आउटसोर्स करके, कम परिचालन लागत के साथ सभी काम तेजी से किए जा सकते हैं। विशिष्ट फर्म डेटा को बचाने के लिए नई तकनीकों का भी उपयोग कर सकती हैं जिन्हें मैन्युअल रूप से खोजना असंभव है। कई प्लेटफार्मों पर टन डेटा उपलब्ध है, लेकिन बहुत सीमित ज्ञान उपलब्ध है।
प्रमुख चुनौती आवश्यक डेटा निकालने के लिए डेटा का विश्लेषण करना है जिसका उपयोग किसी समस्या को हल करने या कंपनी के विकास के लिए किया जा सकता है। डेटा को माइन करने और उससे बेहतर निर्णय लेने के लिए कई गतिशील उपकरण और तकनीक उपलब्ध हैं।
डेटा माइनिंग को डेटाबेस में ज्ञान की खोज (KDD) . के रूप में भी जाना जाता है . एक प्रक्रिया के रूप में ज्ञान की खोज में निम्नलिखित चरणों की एक पुनरावृत्तीय श्रृंखला शामिल है -
-
डेटा सफाई - यह शोर और असंगत जानकारी को समाप्त कर सकता है।
-
डेटा एकीकरण - डेटा एकीकरण में, जहां कई डेटा स्रोतों को जोड़ा जा सकता है।
-
डेटा चयन - डेटा चयन में, जहां विश्लेषण फ़ंक्शन के लिए प्रासंगिक डेटा डेटाबेस से प्राप्त किया जाता है।
-
डेटा परिवर्तन - डेटा परिवर्तन में, जहां डेटा को सारांश या एकत्रीकरण संचालन निष्पादित करके खनन के लिए लागू रूपों में रूपांतरित या लिंक किया जाता है।
-
डेटा माइनिंग - यह एक महत्वपूर्ण चरण है जहां डेटा पैटर्न निकालने के लिए बुद्धिमान विधियों का उपयोग किया जाता है।
-
पैटर्न मूल्यांकन - यह कुछ दिलचस्प उपायों के आधार पर ज्ञान को परिभाषित करने वाले वास्तव में दिलचस्प पैटर्न को पहचान सकता है।
-
ज्ञान प्रस्तुति - ज्ञान प्रस्तुति में, जहां ग्राहक को खनन ज्ञान को पेश करने के लिए विज़ुअलाइज़ेशन और ज्ञान प्रतिनिधित्व विधियों का उपयोग किया जाता है।