डेटा माइनिंग डेटाबेस के मालिक के लिए स्पष्ट और लाभकारी परिणाम प्राप्त करने के लिए पहले अज्ञात नियमितताओं या संबंधों को खोजने के लिए उच्च मात्रा में जानकारी के चयन, अन्वेषण और मॉडलिंग की प्रक्रिया है।
डेटा माइनिंग एक अंतःविषय क्षेत्र है, जो डेटाबेस सिस्टम, सांख्यिकी, मशीन लर्निंग, विज़ुअलाइज़ेशन और डेटा साइंस जैसे विषयों के एक समूह का संयोजन है। यह इस्तेमाल की गई डेटा माइनिंग विधियों पर आधारित है, तंत्रिका नेटवर्क, फ़ज़ी और रफ़ सेट थ्योरी, ज्ञान प्रतिनिधित्व, आगमनात्मक तर्क प्रोग्रामिंग, या उच्च-प्रदर्शन कंप्यूटिंग सहित अन्य विषयों के दृष्टिकोणों का उपयोग किया जा सकता है।
यह खनन किए जाने वाले डेटा के प्रकारों पर या दिए गए डेटा माइनिंग एप्लिकेशन पर स्थापित होता है, डेटा माइनिंग सिस्टम स्थानिक डेटा विश्लेषण, डेटा पुनर्प्राप्ति, पैटर्न पहचान, छवि विश्लेषण, सिग्नल प्रोसेसिंग, कंप्यूटर ग्राफिक्स, नेटवर्क प्रौद्योगिकी से विधियों को भी एकीकृत कर सकता है। अर्थशास्त्र, व्यवसाय, जैव सूचना विज्ञान, या मनोविज्ञान।
डेटा माइनिंग क्वेरी भाषा को इन प्राइमेटिव को शामिल करने के लिए डिज़ाइन किया जा सकता है, जिससे उपयोगकर्ता लचीले ढंग से डेटा माइनिंग सिस्टम से जुड़ सकते हैं। एक डेटा माइनिंग क्वेरी भाषा एक प्राधिकरण का समर्थन करती है जिस पर उपयोगकर्ता के अनुकूल ग्राफिकल इंटरफेस का निर्माण किया जा सकता है। यह डेटा माइनिंग सिस्टम के अन्य डेटा सिस्टम के साथ संचार और संपूर्ण डेटा प्रोसेसिंग वातावरण के साथ इसके एकीकरण को बढ़ावा देता है।
यह एक समावेशी डेटा माइनिंग भाषा को डिजाइन करना चुनौतीपूर्ण है क्योंकि डेटा माइनिंग डेटा लक्षण वर्णन से लेकर विकास विश्लेषण तक कार्यों की एक विस्तृत स्पेक्ट्रम की रक्षा करता है। प्रत्येक कार्य की कई आवश्यकताएं होती हैं। एक प्रभावी डेटा माइनिंग क्वेरी भाषा के डिज़ाइन के लिए विभिन्न प्रकार के डेटा माइनिंग कार्यों की शक्ति, सीमा और अंतर्निहित संरचना की व्यापक शिक्षा की आवश्यकता होती है।
डेटा माइनिंग फ़ंक्शंस का उपयोग डेटा माइनिंग कार्यों में खोजे जाने वाले पैटर्न के प्रकार को परिभाषित करने के लिए किया जाता है। सामान्य तौर पर, डेटा माइनिंग कार्यों को वर्णनात्मक और भविष्य कहनेवाला सहित दो प्रकारों में वर्गीकृत किया जा सकता है। वर्णनात्मक खनन कार्य डेटाबेस में डेटा की सामान्य विशेषताओं को परिभाषित करते हैं और भविष्य कहनेवाला खनन कार्य भविष्यवाणियों को विकसित करने के लिए वर्तमान जानकारी पर अनुमान लगाते हैं।
डेटा माइनिंग के प्रमुख घटक इस प्रकार हैं -
- डेटाबेस - यह एक या डेटाबेस का एक सेट, डेटा वेयरहाउस, स्प्रैडशीट, और एक अन्य प्रकार का डेटा रिपॉजिटरी है जहां डेटा सफाई और एकीकरण तकनीकों को लागू किया जा सकता है।
- डेटा वेयरहाउस सर्वर - यह घटक डेटा वेयरहाउस से उपयोगकर्ताओं के अनुरोध के आधार पर प्रासंगिक रिकॉर्ड प्राप्त करता है।
- ज्ञान का आधार − यह एक ज्ञान क्षेत्र है जिसका उपयोग दिलचस्प पैटर्न खोजने के लिए किया जाता है।
- डेटा माइनिंग इंजन - यह एक कार्यात्मक मॉड्यूल का उपयोग करता है जिसका उपयोग वर्गीकरण, संघ, क्लस्टर विश्लेषण, आदि सहित कार्यों को करने के लिए किया जाता है।
- पैटर्न मूल्यांकन मॉड्यूल - यह घटक दिलचस्प पैटर्न का उपयोग करता है जो दिलचस्प पैटर्न की ओर खोज को लक्षित करने के लिए डेटा माइनिंग संरचना के साथ संचार करता है।
- उपयोगकर्ता इंटरफ़ेस - यह इंटरफ़ेस उपयोगकर्ताओं को डेटा माइनिंग फ़ंक्शन या ग्राफिकल यूजर इंटरफेस के माध्यम से एक क्वेरी का वर्णन करके सिस्टम के साथ बातचीत करने में सक्षम बनाता है।