डेटा माइनिंग सांख्यिकीय और गणितीय तकनीकों सहित पैटर्न पहचान तकनीकों का उपयोग करके, रिपॉजिटरी में सहेजे गए डेटा की एक उच्च मात्रा के माध्यम से साझा करके उपयोगी नए सहसंबंध, पैटर्न और प्रवृत्तियों को खोजने की प्रक्रिया है। यह अनपेक्षित संबंधों की खोज करने के लिए तथ्यात्मक डेटासेट का विश्लेषण है और डेटा स्वामी के लिए तार्किक और सहायक दोनों तरह के नए तरीकों में रिकॉर्ड को सारांशित करना है।
डेटा माइनिंग से संबंधित विभिन्न मुद्दे इस प्रकार हैं -
-
गोपनीयता के मुद्दे - यह मूलभूत मुद्दा है जो तकनीकी व्यवसाय से नहीं, बल्कि एक सामाजिक व्यवसाय से जुड़ा है। यह सिंगल प्राइवेसी का मसला है। डेटा माइनिंग इसे नियमित व्यापार लेनदेन का विश्लेषण करने और एकल खरीदारी की आदतों और वरीयताओं के बारे में आवश्यक मात्रा में डेटा एकत्र करने के लिए लागू करता है।
-
डेटा अखंडता मुद्दे - एक प्रमुख कार्यान्वयन चुनौती कई स्रोतों से परस्पर विरोधी या अनावश्यक जानकारी को मिलाना है। उदाहरण के लिए, एक बैंक विभिन्न डेटाबेस पर क्रेडिट कार्ड खातों की सुरक्षा कर सकता है। प्रत्येक कार्डधारक के पते अलग-अलग हो सकते हैं। सॉफ़्टवेयर को एक सिस्टम से दूसरे सिस्टम में डेटा का अनुवाद करना चाहिए और वर्तमान में दर्ज किए गए पते को चुनना चाहिए।
-
संबंधपरक डेटाबेस संरचना या बहुआयामी एक - तकनीकी समस्या यह है कि संबंधपरक डेटाबेस संरचना शुरू करना बेहतर है या बहुआयामी। एक संबंधपरक संरचना में, एडहॉक प्रश्नों को सक्षम करते हुए, डेटा को तालिकाओं में सहेजा जाता है। एक बहुआयामी संरचना में, क्यूब्स के सेट को सरणियों में जोड़ा जाता है, जिसमें श्रेणी के अनुसार उपसमुच्चय उत्पन्न होते हैं। जबकि बहुआयामी संरचनाएं बहुआयामी डेटा माइनिंग का समर्थन करती हैं, रिलेशनल संरचनाएं जो क्लाइंट/सर्वर वातावरण में कहीं बेहतर तरीके से लागू की गई हैं।
-
लागत - डेटा माइनिंग क्वेरी जितनी अधिक प्रभावी होंगी, डेटा से एकत्रित की जा रही जानकारी की उपयोगिता उतनी ही अधिक होगी और डेटा एकत्र करने और बनाए रखने की मात्रा को बढ़ाने का दबाव उतना ही अधिक होगा, जो तेज़, अधिक शक्तिशाली डेटा माइनिंग प्रश्नों के दबाव में सुधार करता है। इससे बड़े, तेज सिस्टम के लिए दबाव बढ़ जाता है, जो अधिक कीमत वाले होते हैं।
-
डेटा गुणवत्ता - यह डेटा माइनिंग के लिए सबसे बड़ी चुनौतियों में से एक है। डेटा गुणवत्ता डेटा की सटीकता और अखंडता को परिभाषित करती है। डेटा की गुणवत्ता का संबंध विश्लेषण की जा रही जानकारी की संरचना और निरंतरता से भी हो सकता है। डुप्लिकेट डेटा की उपस्थिति, डेटा मानकों की अनुपस्थिति, अपडेट की समयबद्धता और मानवीय त्रुटि स्वचालित रूप से अधिक जटिल डेटा माइनिंग तकनीकों की प्रभावशीलता को प्रभावित कर सकती है।
-
इंटरऑपरेबिलिटी - यह औसत मानकों और प्रक्रियाओं का उपयोग करते हुए अन्य प्रणालियों या डेटा के साथ काम करने के लिए कंप्यूटर सिस्टम या डेटा की क्षमता को परिभाषित करता है। डेटा माइनिंग के लिए, डेटाबेस और सॉफ़्टवेयर की इंटरऑपरेबिलिटी एक साथ कई डेटाबेस की खोज और विश्लेषण की अनुमति देने और कई एजेंसियों की डेटा माइनिंग गतिविधियों की अनुकूलता प्रदान करने के लिए आवश्यक है।