डेटा माइनिंग सांख्यिकीय और गणितीय तकनीकों सहित पैटर्न पहचान तकनीकों का उपयोग करके, रिपॉजिटरी में सहेजे गए डेटा की एक उच्च मात्रा के माध्यम से उपयोगी नए सहसंबंध, पैटर्न और प्रवृत्तियों को खोजने की प्रक्रिया है। यह अनपेक्षित संबंधों की खोज करने के लिए तथ्यात्मक डेटासेट का विश्लेषण है और डेटा स्वामी के लिए तार्किक और सहायक दोनों तरह के नए तरीकों में रिकॉर्ड को सारांशित करना है।
डेटा माइनिंग कार्य को डेटा माइनिंग क्वेरी के डिज़ाइन में परिभाषित किया जा सकता है, जो डेटा माइनिंग सिस्टम में इनपुट है। डेटा माइनिंग क्वेरी को डेटा माइनिंग टास्क प्रिमिटिव की स्थितियों में दर्शाया जाता है। ये आदिम उपयोगकर्ता को खनन प्रक्रिया को निर्देशित करने या कई कोणों या गहराई से निष्कर्षों का परीक्षण करने के लिए खोज के दौरान डेटा माइनिंग सिस्टम के साथ पारस्परिक रूप से जुड़ने में सक्षम बनाते हैं।
डेटा माइनिंग का कार्य इस प्रकार है -
खनन किए जाने वाले कार्य-प्रासंगिक डेटा का सेट - यह डेटाबेस के हिस्से या जानकारी के सेट को परिभाषित करता है जिसमें उपयोगकर्ता संबंधित है। इसमें डेटाबेस विशेषताएँ या रुचि के डेटा वेयरहाउस आयाम (प्रासंगिक विशेषताओं या आयामों के रूप में परिभाषित) शामिल हैं।
जिस तरह का ज्ञान खनन किया जाना है - यह डेटा खनन कार्यों को परिभाषित करता है, जिसमें लक्षण वर्णन, भेदभाव, संघ या सहसंबंध विश्लेषण, वर्गीकरण, भविष्यवाणी, क्लस्टरिंग, बाहरी विश्लेषण, या विकास विश्लेषण शामिल हैं।
खोज प्रक्रिया में उपयोग की जाने वाली पृष्ठभूमि का ज्ञान - खनन किए जाने वाले डोमेन के बारे में यह ज्ञान ज्ञान की खोज प्रक्रिया को निर्देशित करने और स्थापित पैटर्न की गणना करने में मदद करता है। अवधारणा पदानुक्रम पृष्ठभूमि ज्ञान का एक प्रसिद्ध रूप है, जो डेटा को अमूर्तता के कई तरीकों से खनन करने में सक्षम बनाता है।
पैटर्न मूल्यांकन के लिए रोचकता के उपाय और सीमाएं - उनका उपयोग खनन प्रक्रिया को निर्देशित करने के लिए या खोज के बाद, खोजे गए पैटर्न की गणना करने के लिए किया जा सकता है। कई प्रकार के ज्ञान के अलग-अलग दिलचस्प उपाय हो सकते हैं।
खोजे गए पैटर्न को विज़ुअलाइज़ करने के लिए अपेक्षित प्रतिनिधित्व - यह उस रूप का प्रतिनिधित्व करता है जिसमें खोजे गए पैटर्न को प्रस्तुत किया जाना है, जिसमें नियम, टेबल, चार्ट, ग्राफ़, निर्णय पेड़ और क्यूब्स शामिल हो सकते हैं।
डेटा माइनिंग क्वेरी भाषा को इन प्राइमेटिव को शामिल करने के लिए डिज़ाइन किया जा सकता है, जिससे उपयोगकर्ता लचीले ढंग से डेटा माइनिंग सिस्टम से जुड़ सकते हैं। एक डेटा माइनिंग क्वेरी भाषा एक प्राधिकरण का समर्थन करती है जिस पर उपयोगकर्ता के अनुकूल ग्राफिकल इंटरफेस का निर्माण किया जा सकता है। यह डेटा माइनिंग सिस्टम के अन्य डेटा सिस्टम के साथ संचार और संपूर्ण डेटा प्रोसेसिंग वातावरण के साथ इसके एकीकरण को बढ़ावा देता है।
यह एक समावेशी डेटा माइनिंग भाषा को डिजाइन करना चुनौतीपूर्ण है क्योंकि डेटा माइनिंग डेटा लक्षण वर्णन से लेकर विकास विश्लेषण तक कार्यों की एक विस्तृत स्पेक्ट्रम की रक्षा करता है। प्रत्येक कार्य की कई आवश्यकताएं होती हैं। एक प्रभावी डेटा माइनिंग क्वेरी भाषा के डिज़ाइन के लिए विभिन्न प्रकार के डेटा माइनिंग कार्यों की शक्ति, सीमा और अंतर्निहित संरचना की व्यापक शिक्षा की आवश्यकता होती है।