डेटा माइनिंग सांख्यिकीय और संख्यात्मक तकनीकों सहित पैटर्न पहचान तकनीकों का उपयोग करके, रिपॉजिटरी में सहेजे गए उच्च मात्रा में रिकॉर्ड के माध्यम से उपयोगी नए सहसंबंधों, पैटर्न और रुझानों की खोज का चरण है। यह अनपेक्षित संबंधों की खोज करने के लिए तथ्यात्मक डेटासेट का विश्लेषण है और डेटा स्वामी के लिए तार्किक और सहायक दोनों तरह के नए तरीकों में रिकॉर्ड को सारांशित करना है।
यह डेटाबेस के मालिक के लिए स्पष्ट और लाभकारी परिणाम प्राप्त करने के लिए पहले अज्ञात नियमितताओं या संबंधों को खोजने के लिए उच्च मात्रा में जानकारी के चयन, अन्वेषण और मॉडलिंग की प्रक्रिया है।
डेटा माइनिंग डेटा साइंस के समान है। यह एक व्यक्ति द्वारा, एक विशेष स्थिति में, एक विशिष्ट डेटा सेट पर, एक उद्देश्य के साथ किया जाता है। इस चरण में टेक्स्ट माइनिंग, वेब माइनिंग, ऑडियो और वीडियो माइनिंग, डिस्क्रिप्टिव डेटा माइनिंग और सोशल मीडिया माइनिंग सहित कई प्रकार के कार्य शामिल हैं। यह सॉफ्टवेयर के माध्यम से पूरा होता है जो सरल या बहुत विशिष्ट होता है।
डेटा माइनिंग को आउटसोर्स करके, कम परिचालन लागत के साथ सभी काम तेजी से किए जा सकते हैं। विशिष्ट फर्म डेटा को बचाने के लिए नई तकनीकों का भी उपयोग कर सकती हैं जिन्हें मैन्युअल रूप से खोजना असंभव है। कई प्लेटफार्मों पर टन डेटा उपलब्ध है, लेकिन बहुत सीमित ज्ञान उपलब्ध है।
प्रमुख चुनौती आवश्यक डेटा निकालने के लिए डेटा का विश्लेषण करना है जिसका उपयोग किसी समस्या को हल करने या कंपनी के विकास के लिए किया जा सकता है। डेटा को माइन करने और उससे बेहतर निर्णय लेने के लिए कई गतिशील उपकरण और तकनीक उपलब्ध हैं।
बारंबार वस्तुओं के खनन का कार्य जटिल है क्योंकि बहुआयामी अंतरिक्ष में सूचना की विरलता के कारण अमूर्त के निम्न या आदिम तरीकों पर डेटा वस्तुओं के बीच एक मजबूत संबंध खोजना मुश्किल है।
मजबूत जुड़ाव उच्च अवधारणा स्तरों पर पाया जाता है जो सामान्य ज्ञान का प्रतिनिधित्व कर सकता है लेकिन जो एक उपयोगकर्ता के लिए सामान्य ज्ञान का प्रतिनिधित्व कर सकता है वह दूसरे को नया लग सकता है। इस प्रकार, यह आवश्यक है कि डेटा माइनिंग, एब्स्ट्रैक्शन के कई स्तरों पर माइन एसोसिएशन के नियमों को संभावनाएं प्रदान करे और बस कई एब्स्ट्रैक्शन स्पेस के बीच पास-थ्रू हो।
निम्नलिखित कारण हैं कि लगातार वस्तुओं का खनन मुश्किल क्यों है।
-
एसोसिएशन नियमों को उत्पन्न करने के लिए आवश्यक गणना मदों की संख्या और नियमों की जटिलता पर विचार के साथ तेजी से बढ़ती है।
-
उत्पाद प्रकार सहित एक पहचान करने वाली विशेषताओं को छोड़कर आइटम को समान माना जाता है। यह सभी समस्याएँ इस विवरण के अनुकूल नहीं हैं।
-
विश्लेषण में उपयोग की जाने वाली वस्तुओं के सही सेट का निर्धारण करना सबसे कठिन कार्य है। वस्तुओं का सामान्यीकरण करके, कोई यह सुनिश्चित कर सकता है कि विश्लेषण में प्रयुक्त वस्तुओं की आवृत्तियाँ लगभग समान हों।
-
जब बहुत कम लेन-देन में बहुत कम आइटम होते हैं तो एसोसिएशन नियम बनाना मुश्किल होता है।