डेटा माइनिंग, पैटर्न पहचान तकनीकों के साथ-साथ सांख्यिकीय और गणितीय तकनीकों का उपयोग करके, रिपॉजिटरी में संग्रहीत बड़ी मात्रा में डेटा के माध्यम से सार्थक नए सहसंबंधों, पैटर्न और रुझानों की खोज करने की प्रक्रिया है। यह अनपेक्षित संबंधों को खोजने के लिए अवलोकन संबंधी डेटासेट का विश्लेषण है और डेटा को नए तरीकों से सारांशित करना है जो डेटा स्वामी के लिए समझने योग्य और उपयोगी दोनों हैं।
यह डेटाबेस के मालिक के लिए स्पष्ट और लाभकारी परिणाम प्राप्त करने के लिए नियमितता या संबंधों को खोजने के लिए उच्च मात्रा में जानकारी के चयन, अन्वेषण और मॉडलिंग की प्रक्रिया है। डेटा माइनिंग सार्थक डिज़ाइन और विधियों को खोजने के लिए बड़ी मात्रा में डेटा के स्वचालित या अर्ध-स्वचालित माध्यम से अन्वेषण और विश्लेषण का चरण है।
डेटा माइनिंग एक महत्वपूर्ण तरीका है जहां पहले से अज्ञात और संभावित रूप से उपयोगी डेटा को बड़ी मात्रा में जानकारी से निकाला जाता है। डेटा माइनिंग प्रक्रिया में कई घटक होते हैं, और ये घटक डेटा माइनिंग सिस्टम संरचना का निर्माण करते हैं। डेटा माइनिंग के प्रमुख घटक इस प्रकार हैं -
-
सूचना भंडार - यह एक या डेटाबेस, डेटा वेयरहाउस, स्प्रेडशीट या कई प्रकार के डेटा रिपॉजिटरी का एक सेट है। डेटा की सफाई और डेटा एकीकरण तकनीकों को डेटा पर लागू किया जा सकता है।
-
डेटाबेस या डेटा वेयरहाउस सर्वर - डेटाबेस या डेटा वेयरहाउस सर्वर उपयोगकर्ता के डेटा माइनिंग अनुरोध के आधार पर प्रासंगिक डेटा प्राप्त करने के लिए उत्तरदायी है।
-
ज्ञान का आधार - यह डोमेन ज्ञान है जो खोज का मार्गदर्शन कर सकता है या परिणामी डिज़ाइन की रुचि की गणना कर सकता है।
-
डेटा माइनिंग इंजन - यह डेटा माइनिंग सिस्टम के लिए महत्वपूर्ण है और इसमें कार्यों के लिए कार्यात्मक मॉड्यूल का एक सेट शामिल है जिसमें लक्षण वर्णन, संघ और सहसंबंध विश्लेषण, वर्गीकरण, भविष्यवाणी, क्लस्टर विश्लेषण, बाहरी विश्लेषण और विकास विश्लेषण शामिल हैं।
-
पैटर्न मूल्यांकन मॉड्यूल - यह घटक आम तौर पर दिलचस्प उपायों को नियोजित करता है और दिलचस्प डिजाइन की ओर खोज पर ध्यान केंद्रित करने के लिए डेटा खनन संरचना के साथ संचार करता है।
यह खंड आम तौर पर आकर्षक डिजाइन की ओर खोज को लक्षित करने के लिए डेटा माइनिंग मॉड्यूल के साथ सहयोग करने वाले दांव उपायों को नियोजित करता है। यह खोजे गए डिज़ाइनों को फ़िल्टर करने के लिए एक हिस्सेदारी सीमा का उपयोग कर सकता है।
दूसरे शब्दों में, पैटर्न मूल्यांकन मॉड्यूल को खनन मॉड्यूल के साथ समन्वयित किया जा सकता है, जो इस्तेमाल की गई डेटा खनन तकनीकों के निष्पादन के आधार पर होता है। प्रभावी डेटा माइनिंग के लिए, यह सुझाव दिया जाता है कि खोज को केवल आकर्षक डिज़ाइन तक सीमित रखने के लिए खनन प्रक्रिया में जितना लागू हो, पैटर्न हिस्सेदारी के मूल्यांकन को आगे बढ़ाया जाए।
-
उपयोगकर्ता इंटरफ़ेस - यह मॉड्यूल उपयोगकर्ताओं और डेटा माइनिंग सिस्टम को जोड़ता है, उपयोगकर्ता को डेटा माइनिंग क्वेरी या कार्य को परिभाषित करके सिस्टम के साथ इंटरैक्ट करने में सक्षम बनाता है, खोज पर ध्यान केंद्रित करने में मदद करने के लिए डेटा प्रदान करता है, और इंटरमीडिएट डेटा माइनिंग परिणामों के आधार पर खोजपूर्ण डेटा माइनिंग को लागू करता है।पी>
इसके अलावा, यह घटक उपयोगकर्ता को डेटाबेस और डेटा वेयरहाउस डिज़ाइन या डेटा संरचनाओं को ब्राउज़ करने, खनन किए गए पैटर्न का मूल्यांकन करने और विभिन्न रूपों में पैटर्न की कल्पना करने की अनुमति देता है।