Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

ज्ञान खोज की प्रक्रिया के रूप में देखे जाने पर डेटा माइनिंग में कौन से चरण शामिल हैं?

<घंटा/>

KDD डेटाबेस में नॉलेज डिस्कवरी का प्रतिनिधित्व करता है। यह डेटा में ज्ञान की खोज की व्यापक प्रक्रिया को परिभाषित करता है और निश्चित डेटा माइनिंग तकनीकों के उच्च-स्तरीय अनुप्रयोगों पर जोर देता है। यह आर्टिफिशियल इंटेलिजेंस, मशीन लर्निंग, पैटर्न रिकग्निशन, डेटाबेस, स्टैटिस्टिक्स, प्रोफेशनल सिस्टम के लिए ज्ञान प्राप्ति, और डेटा विज़ुअलाइज़ेशन जैसे कई क्षेत्रों में शोधकर्ताओं के लिए रुचि का क्षेत्र है।

केडीडी प्रक्रिया का मुख्य उद्देश्य विशाल डेटाबेस के संदर्भ में जानकारी से डेटा निकालना है। यह डेटा माइनिंग एल्गोरिदम का उपयोग करके यह पहचान करता है कि ज्ञान क्या माना जाता है।

डेटाबेस में ज्ञान की खोज को एक प्रोग्राम, खोजपूर्ण विश्लेषण और विशाल डेटा रिपॉजिटरी के मॉडलिंग के रूप में माना जाता है। KDD बड़े और कठिन डेटा सेट से मान्य, सहायक और समझने योग्य डिज़ाइनों की पहचान करने की संगठित प्रक्रिया है।

डेटा माइनिंग केडीडी प्रक्रिया की जड़ है, जैसे कि एल्गोरिदम का अनुमान जो रिकॉर्ड की जांच करता है, मॉडल विकसित करता है, और पहले अज्ञात पैटर्न की खोज करता है। मॉडल का उपयोग जानकारी से जानकारी निकालने, जानकारी का विश्लेषण करने और जानकारी की भविष्यवाणी करने के लिए किया जाता है।

डेटा माइनिंग केडीडी प्रक्रिया में एक कदम है जिसमें डेटा विश्लेषण और डिस्कवरी एल्गोरिदम लागू करना शामिल है, जो स्वीकार्य कम्प्यूटेशनल दक्षता सीमाओं के तहत, डेटा पर पैटर्न (या मॉडल) की एक विशिष्ट गणना करते हैं।

केडीडी प्रक्रिया में कुछ आवश्यक चयन, प्रीप्रोसेसिंग, सबसैंपलिंग और इसके परिवर्तनों के साथ डेटाबेस का उपयोग करना शामिल है; इससे पैटर्न की गणना करने के लिए डेटा-खनन विधियों (एल्गोरिदम) का उपयोग करना; और डेटा माइनिंग के उत्पादों की गणना करना, समझाए गए ज्ञान के प्रगणित पैटर्न के सबसेट को पहचानने के लिए।

ज्ञान की खोज प्रक्रिया में शामिल चरण इस प्रकार हैं -

  • चयन - डेटा माइनिंग प्रक्रिया के लिए आवश्यक डेटा विभिन्न स्रोतों से एकत्र किया जाता है। इसलिए, पहला कदम एक डेटासेट चुनना या चर या डेटा नमूनों के सबसेट पर ध्यान केंद्रित करना है, जिस पर खोज को लागू किया जाना है।
  • डेटा की सफाई और प्रीप्रोसेसिंग - प्रक्रिया द्वारा उपयोग किए जाने वाले डेटा में लापता या गलत मान हो सकते हैं, क्योंकि बुनियादी संचालन में शोर को दूर करना, शोर के लिए मॉडल या खाते में आवश्यक जानकारी एकत्र करना, लापता डेटा फ़ील्ड को संभालने के लिए तकनीकों पर निर्णय लेना और समय-अनुक्रम के लिए लेखांकन शामिल है। जानकारी, केडीडी प्रक्रिया के दूसरे चरण में पूरी होती है।
  • डेटा परिवर्तन - इस चरण में कार्य के लक्ष्य के आधार पर डेटा का प्रतिनिधित्व करने के लिए उपयोगी सुविधाओं को खोजना शामिल है। आयामीता में कमी या परिवर्तन दृष्टिकोण के साथ, विचाराधीन चर की कुशल संख्या को कम किया जा सकता है, या डेटा के लिए अपरिवर्तनीय प्रतिनिधित्व की खोज की जा सकती है।
  • डेटा माइनिंग - यह प्रदर्शन किए जा रहे डेटा माइनिंग कार्य पर आधारित है, यह चरण परिवर्तित डेटा के लिए एक एल्गोरिथ्म लागू करता है, एक विशेष प्रतिनिधित्वात्मक रूप में रुचि के पैटर्न की खोज करता है या वर्गीकरण नियमों या पेड़ों, प्रतिगमन और क्लस्टरिंग सहित विशिष्ट अभ्यावेदन का एक सेट है।
  • खनन पैटर्न की व्याख्या करना - इस चरण में निकाले गए पैटर्न और मॉडल का विज़ुअलाइज़ेशन या निकाले गए मॉडल में दिए गए डेटा का विज़ुअलाइज़ेशन भी शामिल हो सकता है।

  1. वेब माइनिंग के तरीके क्या हैं?

    वेब माइनिंग सीखने या ज्ञान प्राप्त करने के लक्ष्यों के लिए वेब-आधारित डेटा के लिए मशीन लर्निंग (डेटा माइनिंग) दृष्टिकोण का अनुप्रयोग है। वेब माइनिंग के तरीकों को तीन अलग-अलग तत्वों में से एक में परिभाषित किया जा सकता है जो इस प्रकार हैं - वेब उपयोग खनन - वेब यूसेज माइनिंग एक तरह का वेब माइनिंग है ज

  1. स्थानिक डेटा माइनिंग की मूल बातें क्या हैं?

    स्थानिक डेटा माइनिंग स्थानिक मॉडल के लिए डेटा माइनिंग का अनुप्रयोग है। स्थानिक डेटा माइनिंग में, विश्लेषक भौगोलिक या स्थानिक डेटा का उपयोग व्यावसायिक खुफिया या अलग-अलग परिणाम बनाने के लिए करते हैं। भौगोलिक डेटा को प्रासंगिक और लाभकारी स्वरूपों में लाने के लिए इसके लिए विशिष्ट विधियों और संसाधनों की

  1. डेटा माइनिंग में आउटलेयर कितने प्रकार के होते हैं?

    डेटा माइनिंग में विभिन्न प्रकार के आउटलेयर हैं जो इस प्रकार हैं - वैश्विक आउटलेयर - किसी दिए गए डेटा सेट में, एक डेटा ऑब्जेक्ट एक वैश्विक बाहरी होता है यदि वह बाकी जानकारी सेट से अनिवार्य रूप से विचलित हो जाता है। वैश्विक आउटलेयर को बिंदु विसंगतियों के रूप में जाना जाता है, और सबसे आसान प्रकार के आ