KDD डेटाबेस में नॉलेज डिस्कवरी का प्रतिनिधित्व करता है। यह डेटा में ज्ञान की खोज की व्यापक प्रक्रिया को परिभाषित करता है और निश्चित डेटा माइनिंग तकनीकों के उच्च-स्तरीय अनुप्रयोगों पर जोर देता है। यह आर्टिफिशियल इंटेलिजेंस, मशीन लर्निंग, पैटर्न रिकग्निशन, डेटाबेस, स्टैटिस्टिक्स, प्रोफेशनल सिस्टम के लिए ज्ञान प्राप्ति, और डेटा विज़ुअलाइज़ेशन जैसे कई क्षेत्रों में शोधकर्ताओं के लिए रुचि का क्षेत्र है।
केडीडी प्रक्रिया का मुख्य उद्देश्य विशाल डेटाबेस के संदर्भ में जानकारी से डेटा निकालना है। यह डेटा माइनिंग एल्गोरिदम का उपयोग करके यह पहचान करता है कि ज्ञान क्या माना जाता है।
डेटाबेस में ज्ञान की खोज को एक प्रोग्राम, खोजपूर्ण विश्लेषण और विशाल डेटा रिपॉजिटरी के मॉडलिंग के रूप में माना जाता है। KDD बड़े और कठिन डेटा सेट से मान्य, सहायक और समझने योग्य डिज़ाइनों की पहचान करने की संगठित प्रक्रिया है।
डेटा माइनिंग केडीडी प्रक्रिया की जड़ है, जैसे कि एल्गोरिदम का अनुमान जो रिकॉर्ड की जांच करता है, मॉडल विकसित करता है, और पहले अज्ञात पैटर्न की खोज करता है। मॉडल का उपयोग जानकारी से जानकारी निकालने, जानकारी का विश्लेषण करने और जानकारी की भविष्यवाणी करने के लिए किया जाता है।
डेटा माइनिंग केडीडी प्रक्रिया में एक कदम है जिसमें डेटा विश्लेषण और डिस्कवरी एल्गोरिदम लागू करना शामिल है, जो स्वीकार्य कम्प्यूटेशनल दक्षता सीमाओं के तहत, डेटा पर पैटर्न (या मॉडल) की एक विशिष्ट गणना करते हैं।
केडीडी प्रक्रिया में कुछ आवश्यक चयन, प्रीप्रोसेसिंग, सबसैंपलिंग और इसके परिवर्तनों के साथ डेटाबेस का उपयोग करना शामिल है; इससे पैटर्न की गणना करने के लिए डेटा-खनन विधियों (एल्गोरिदम) का उपयोग करना; और डेटा माइनिंग के उत्पादों की गणना करना, समझाए गए ज्ञान के प्रगणित पैटर्न के सबसेट को पहचानने के लिए।
ज्ञान की खोज प्रक्रिया में शामिल चरण इस प्रकार हैं -
- चयन - डेटा माइनिंग प्रक्रिया के लिए आवश्यक डेटा विभिन्न स्रोतों से एकत्र किया जाता है। इसलिए, पहला कदम एक डेटासेट चुनना या चर या डेटा नमूनों के सबसेट पर ध्यान केंद्रित करना है, जिस पर खोज को लागू किया जाना है।
- डेटा की सफाई और प्रीप्रोसेसिंग - प्रक्रिया द्वारा उपयोग किए जाने वाले डेटा में लापता या गलत मान हो सकते हैं, क्योंकि बुनियादी संचालन में शोर को दूर करना, शोर के लिए मॉडल या खाते में आवश्यक जानकारी एकत्र करना, लापता डेटा फ़ील्ड को संभालने के लिए तकनीकों पर निर्णय लेना और समय-अनुक्रम के लिए लेखांकन शामिल है। जानकारी, केडीडी प्रक्रिया के दूसरे चरण में पूरी होती है।
- डेटा परिवर्तन - इस चरण में कार्य के लक्ष्य के आधार पर डेटा का प्रतिनिधित्व करने के लिए उपयोगी सुविधाओं को खोजना शामिल है। आयामीता में कमी या परिवर्तन दृष्टिकोण के साथ, विचाराधीन चर की कुशल संख्या को कम किया जा सकता है, या डेटा के लिए अपरिवर्तनीय प्रतिनिधित्व की खोज की जा सकती है।
- डेटा माइनिंग - यह प्रदर्शन किए जा रहे डेटा माइनिंग कार्य पर आधारित है, यह चरण परिवर्तित डेटा के लिए एक एल्गोरिथ्म लागू करता है, एक विशेष प्रतिनिधित्वात्मक रूप में रुचि के पैटर्न की खोज करता है या वर्गीकरण नियमों या पेड़ों, प्रतिगमन और क्लस्टरिंग सहित विशिष्ट अभ्यावेदन का एक सेट है।
- खनन पैटर्न की व्याख्या करना - इस चरण में निकाले गए पैटर्न और मॉडल का विज़ुअलाइज़ेशन या निकाले गए मॉडल में दिए गए डेटा का विज़ुअलाइज़ेशन भी शामिल हो सकता है।