KDD डेटाबेस में नॉलेज डिस्कवरी का प्रतिनिधित्व करता है। यह डेटा में ज्ञान की खोज की व्यापक प्रक्रिया को परिभाषित करता है और निश्चित डेटा माइनिंग तकनीकों के उच्च-स्तरीय अनुप्रयोगों पर जोर देता है। यह आर्टिफिशियल इंटेलिजेंस, मशीन लर्निंग, पैटर्न रिकग्निशन, डेटाबेस, स्टैटिस्टिक्स, प्रोफेशनल सिस्टम के लिए ज्ञान प्राप्ति, और डेटा विज़ुअलाइज़ेशन जैसे कई क्षेत्रों में शोधकर्ताओं के लिए रुचि का क्षेत्र है।
ज्ञान की खोज प्रक्रिया पुनरावृत्त और संवादात्मक है, इसमें नौ चरण शामिल हैं। प्रक्रिया हर चरण में पुनरावृत्त होती है, जिसका अर्थ है कि पिछली क्रियाओं को वापस बदलने की आवश्यकता हो सकती है। इस प्रक्रिया में इस अर्थ में कई कल्पनाशील तरीके हैं कि कोई एक सूत्र प्रस्तुत नहीं कर सकता है या प्रत्येक चरण और अनुप्रयोग प्रकार के लिए सही निर्णयों के लिए एक पूर्ण वैज्ञानिक वर्गीकरण नहीं बना सकता है। इसलिए, प्रत्येक चरण में प्रक्रिया और कई आवश्यकताओं और संभावनाओं को समझना आवश्यक है।
-
समझदारी विकसित करना - यह मूल प्रारंभिक चरण है। यह सीखने के लिए दृश्य बनाता है कि परिवर्तन, एल्गोरिदम, प्रतिनिधित्व आदि जैसे कई निर्णयों के साथ क्या किया जाना चाहिए। केडीडी उद्यम के प्रभारी व्यक्तियों को अंतिम उपयोगकर्ता और पर्यावरण के लक्ष्यों को सीखने और उनकी विशेषता की आवश्यकता होती है। जो ज्ञान खोज प्रक्रिया प्रकट होगी (प्रासंगिक पूर्व ज्ञान शामिल है)।
-
एक लक्ष्य डेटा सेट बनाना - यह एक डेटा सेट चुनना या चर या डेटा नमूनों के सबसेट को लक्षित करना हो सकता है, जिस पर खोज को लागू किया जाना है। यह प्रक्रिया आवश्यक है क्योंकि डेटा माइनिंग सुलभ डेटा से सीखता है और पाता है। यह मॉडलों के निर्माण के लिए साक्ष्य आधार है। यदि कुछ महत्वपूर्ण गुण गायब हैं, तो उस समय पूरा अध्ययन असफल हो सकता है, अधिक विशेषताओं पर विचार किया जाता है।
-
डेटा क्लीनिंग और प्री-प्रोसेसिंग - डेटा क्लीनिंग से परिभाषित होता है कि लापता मानों को भरकर, शोर वाले डेटा को सुचारू करके, आउटलेर्स की पहचान करके और उन्हें हटाकर, और डेटा में विसंगतियों को दूर करके डेटा को साफ़ किया जाता है।
-
खोजपूर्ण विश्लेषण और मॉडल और परिकल्पना चयन - यह डेटा माइनिंग एल्गोरिथम का चयन कर सकता है और डेटा पैटर्न की खोज के लिए उपयोग की जाने वाली विधि का चयन कर सकता है। इस प्रक्रिया में यह तय करना शामिल है कि कौन से मॉडल और पैरामीटर उपयुक्त हो सकते हैं और केडीडी प्रक्रिया के दीर्घकालिक मानदंड के साथ किसी विशेष डेटा-खनन पद्धति का मिलान करना।
-
डेटा माइनिंग - इसका उपयोग विशिष्ट प्रतिनिधित्वात्मक रूप में रुचि के पैटर्न या ऐसे प्रतिनिधित्वों के एक सेट की खोज के लिए किया जाता है, जिसमें वर्गीकरण नियम या पेड़, प्रतिगमन और क्लस्टरिंग शामिल है। उपयोगकर्ता पिछले चरणों को सही ढंग से लागू करके डेटा-खनन पद्धति में महत्वपूर्ण रूप से मदद कर सकता है।
-
खोजे गए ज्ञान पर कार्य करना - यह सीधे ज्ञान का उपयोग कर रहा है, अतिरिक्त कार्रवाई के लिए ज्ञान को किसी अन्य सिस्टम में शामिल कर रहा है, या केवल इसका दस्तावेजीकरण कर रहा है और इच्छुक पार्टियों को इसकी रिपोर्ट कर रहा है। इस प्रक्रिया में पहले से स्वीकृत (या निकाले गए) ज्ञान के साथ संभावित विरोधों की जाँच करना और उनका समाधान करना भी शामिल है।