डेटा माइनिंग सांख्यिकीय और गणितीय तकनीकों सहित पैटर्न पहचान तकनीकों का उपयोग करके, रिपॉजिटरी में सहेजे गए डेटा की एक उच्च मात्रा के माध्यम से उपयोगी नए सहसंबंध, पैटर्न और प्रवृत्तियों को खोजने की प्रक्रिया है। यह अनपेक्षित संबंधों की खोज करने के लिए तथ्यात्मक डेटासेट का विश्लेषण है और डेटा स्वामी के लिए तार्किक और सहायक दोनों तरह के नए तरीकों में रिकॉर्ड को सारांशित करना है।
डेटा माइनिंग एक अंतःविषय क्षेत्र है, जो डेटाबेस सिस्टम, सांख्यिकी, मशीन लर्निंग, विज़ुअलाइज़ेशन और डेटा साइंस जैसे विषयों के एक समूह का संयोजन है। यह उपयोग किए गए डेटा माइनिंग दृष्टिकोण पर निर्भर करता है, अन्य विषयों की तकनीकों को लागू किया जा सकता है, जैसे कि तंत्रिका नेटवर्क, फ़ज़ी और/या रफ़ सेट सिद्धांत, ज्ञान प्रतिनिधित्व, आगमनात्मक तर्क प्रोग्रामिंग, या उच्च-प्रदर्शन कंप्यूटिंग।
डेटा माइनिंग डेटा साइंस के समान है। यह एक व्यक्ति द्वारा, एक विशेष स्थिति में, एक विशिष्ट डेटा सेट पर, एक उद्देश्य के साथ किया जाता है। इस चरण में टेक्स्ट माइनिंग, वेब माइनिंग, ऑडियो और वीडियो माइनिंग, सचित्र डेटा माइनिंग और सोशल मीडिया माइनिंग सहित कई प्रकार की सेवाएँ शामिल हैं। यह सॉफ्टवेयर के माध्यम से पूरा होता है जो सरल या बहुत विशिष्ट होता है।
डेटा माइनिंग को आउटसोर्स करके, कम परिचालन लागत के साथ सभी काम तेजी से किए जा सकते हैं। विशिष्ट फर्म डेटा को बचाने के लिए नई तकनीकों का भी उपयोग कर सकती हैं जिन्हें मैन्युअल रूप से खोजना असंभव है। कई प्लेटफार्मों पर टन डेटा उपलब्ध है, लेकिन बहुत सीमित ज्ञान उपलब्ध है।
प्रमुख चुनौती आवश्यक डेटा निकालने के लिए डेटा का विश्लेषण करना है जिसका उपयोग किसी समस्या को हल करने या कंपनी के विकास के लिए किया जा सकता है। डेटा को माइन करने और उससे बेहतर निर्णय लेने के लिए कई गतिशील उपकरण और तकनीक उपलब्ध हैं।
डेटा माइनिंग की सीमाएं मुख्य रूप से डेटा या कर्मियों से संबंधित हैं, न कि तकनीक से संबंधित।
-
डेटा माइनिंग सॉफ्टवेयर बहुत शक्तिशाली उपकरण हैं लेकिन वे आत्मनिर्भर अनुप्रयोग नहीं हैं। यह सफल हो सकता है, और इसके लिए कुशल तकनीकी और विश्लेषणात्मक विशेषज्ञों की आवश्यकता होती है जो विश्लेषण की संरचना कर सकते हैं और बनाए गए आउटपुट की व्याख्या कर सकते हैं।
-
डेटा माइनिंग का उपयोग पैटर्न और संबंध प्राप्त करने के लिए किया जाता है, यह उपयोगकर्ता को इन पैटर्नों का मूल्य या महत्व नहीं बताता है। इस प्रकार के निर्धारण उपयोगकर्ताओं द्वारा किए जाने चाहिए।
-
खोजे गए पैटर्न की वैधता इस बात पर निर्भर करती है कि इनकी तुलना वास्तविक दुनिया की परिस्थितियों से कैसे की जाती है। उदाहरण के लिए, यह व्यक्तियों के एक बड़े पूल में संभावित आतंकवादी संदिग्धों की पहचान करने के लिए डिज़ाइन किए गए डेटा माइनिंग अनुप्रयोगों की वैधता का आकलन कर सकता है, उपयोगकर्ता डेटा का उपयोग करके मॉडल का परीक्षण कर सकता है जिसमें ज्ञात आतंकवादियों के बारे में जानकारी शामिल है।
-
डेटा माइनिंग व्यवहार और चर के बीच संबंधों की पहचान कर सकता है, यह जरूरी नहीं कि एक कारण संबंध की पहचान करे। उदाहरण के लिए, एक एप्लिकेशन यह पहचान सकता है कि व्यवहार का एक पैटर्न, जैसे कि उड़ान के प्रस्थान के कुछ समय पहले एयरलाइन टिकट खरीदने की प्रवृत्ति, आय, शिक्षा के स्तर और इंटरनेट के उपयोग जैसी विशेषताओं से संबंधित है।