डाटा माइनिंग की सैद्धांतिक नींव क्या है?

<घंटा/>

डेटा माइनिंग के आधार पर कई सिद्धांत हैं जिनमें निम्नलिखित शामिल हैं -

डेटा में कमी - इस सिद्धांत में डेटा माइनिंग का आधार डेटा प्रतिनिधित्व को कम करना है। विशाल डेटाबेस पर प्रश्नों के तेजी से अनुमानित उत्तर प्राप्त करने की आवश्यकता के जवाब में डेटा में कमी निश्चितता को गति प्रदान करती है।

डेटा में कमी के तरीकों में एकवचन मूल्य अपघटन (प्रमुख घटक विश्लेषण के पीछे ड्राइविंग घटक), तरंगिकाएं, प्रतिगमन, लॉग-रेखीय मॉडल, हिस्टोग्राम, क्लस्टरिंग, नमूनाकरण और इंडेक्स ट्री का विकास शामिल हैं।

डेटा संपीड़न - इस सिद्धांत के अनुसार, डेटा माइनिंग का आधार बिट्स, एसोसिएशन रूल्स, डिसीजन ट्री, क्लस्टर्स आदि के संदर्भ में दी गई जानकारी को एन्कोडिंग द्वारा कंप्रेस करना है।

पैटर्न की खोज - इस सिद्धांत में, डेटा माइनिंग का आधार डेटाबेस में दिखने वाले पैटर्न को खोजना है, जिसमें एसोसिएशन, वर्गीकरण मॉडल, अनुक्रमिक पैटर्न आदि शामिल हैं। मशीन लर्निंग, न्यूरल नेटवर्क, एसोसिएशन माइनिंग, अनुक्रमिक पैटर्न माइनिंग, क्लस्टरिंग सहित विभिन्न क्षेत्र हैं। और कई अलग-अलग उपक्षेत्र इस सिद्धांत में योगदान करते हैं।

संभाव्यता सिद्धांत - यह सांख्यिकीय सिद्धांत पर आधारित है। इस सिद्धांत में, डेटा माइनिंग का आधार यादृच्छिक चर के संयुक्त संभाव्यता वितरण को खोजना है, उदाहरण के लिए, बायेसियन विश्वास नेटवर्क या पदानुक्रमित बायेसियन मॉडल।

सूक्ष्म आर्थिक दृष्टिकोण - सूक्ष्म आर्थिक दृष्टिकोण डेटा माइनिंग को ऐसे पैटर्न की खोज करने की सेवा के रूप में मानता है जो केवल उस हद तक आकर्षक हैं कि उनका उपयोग किसी उद्यम की निर्णय लेने की प्रक्रिया में किया जा सकता है (उदाहरण के लिए, विपणन दृष्टिकोण और उत्पादन योजनाओं के संबंध में)।

यह दृष्टिकोण सेवा में से एक है, जिसमें पैटर्न को दिलचस्प माना जाता है यदि वे आधारित हो सकते हैं। उद्यमों को अनुकूलन मुद्दों का सामना करने के रूप में माना जाता है, जहां उद्देश्य किसी निर्णय की सेवा या मूल्य को अधिकतम करना है। इस सिद्धांत में, डेटा माइनिंग एक गैर-रेखीय अनुकूलन समस्या बन जाती है।

प्रेरक डेटाबेस - इस सिद्धांत के अनुसार, डेटाबेस स्कीमा में डेटा और पैटर्न शामिल होते हैं जो डेटाबेस में सहेजे जाते हैं। डेटा माइनिंग डेटाबेस पर इंडक्शन को लागू करने की समस्या है, जहां कार्य डेटाबेस की जानकारी और सिद्धांत (यानी, पैटर्न) को क्वेरी करना है। यह दृश्य डेटाबेस सिस्टम में कई शोधकर्ताओं के बीच प्रसिद्ध है।

ये सिद्धांत संयुक्त रूप से अनन्य नहीं हैं। उदाहरण के लिए, पैटर्न की खोज को डेटा कमी या डेटा संपीड़न के डिज़ाइन के रूप में भी देखा जा सकता है। आदर्श रूप से, एक सैद्धांतिक ढांचा विशिष्ट डेटा माइनिंग कार्यों (एसोसिएशन, वर्गीकरण और क्लस्टरिंग सहित) को मॉडल करने में सक्षम होना चाहिए, एक संभाव्य विशेषताएं होनी चाहिए, डेटा के कई रूपों को प्रबंधित करने में सक्षम होना चाहिए, और डेटा माइनिंग के पुनरावृत्त और इंटरैक्टिव सार का इलाज करना चाहिए। इसके अलावा डेटा माइनिंग के लिए एक अच्छी तरह से परिभाषित संरचना की स्थापना की दिशा में प्रयासों की आवश्यकता है, जो इन आवश्यकताओं को पूरा करती है।