डेटा माइनिंग सांख्यिकीय और गणितीय तकनीकों सहित पैटर्न पहचान तकनीकों का उपयोग करके, रिपॉजिटरी में सहेजे गए डेटा की एक उच्च मात्रा के माध्यम से उपयोगी नए सहसंबंध, पैटर्न और प्रवृत्तियों को खोजने की प्रक्रिया है। यह अनपेक्षित संबंधों की खोज करने के लिए तथ्यात्मक डेटासेट का विश्लेषण है और डेटा स्वामी के लिए तार्किक और सहायक दोनों तरह के नए तरीकों में रिकॉर्ड को सारांशित करना है।
प्रमुख चुनौती आवश्यक डेटा निकालने के लिए डेटा का विश्लेषण करना है जिसका उपयोग किसी समस्या को हल करने या कंपनी के विकास के लिए किया जा सकता है। डेटा को माइन करने और उससे बेहतर निर्णय लेने के लिए कई गतिशील उपकरण और तकनीक उपलब्ध हैं।
डेटा माइनिंग की विभिन्न तकनीकें हैं जो इस प्रकार हैं -
वर्गीकरण - वर्गीकरण एक डेटा-खनन तकनीक है जो अधिक कुशल भविष्यवाणियों और विश्लेषण में सहायता के लिए डेटा के एक सेट में तत्व बनाती है। बहुत बड़े डेटासेट के विश्लेषण को प्रभावी बनाने के लिए कई तरीके हैं।
डेटा माइनिंग में वर्गीकरण सबसे महत्वपूर्ण कार्यों में से एक है। यह पूर्व-परिभाषित वर्ग लेबल को उनकी विशेषताओं के आधार पर उदाहरणों को निर्दिष्ट करने की प्रक्रिया को संदर्भित करता है। वर्गीकरण और क्लस्टरिंग में समानता है, यह समान दिखता है, लेकिन यह अलग है। वर्गीकरण और क्लस्टरिंग के बीच मुख्य अंतर यह है कि वर्गीकरण में पूर्व-निर्धारित समूहों में उनकी सदस्यता के अनुसार तत्वों को समतल करना शामिल है।
क्लस्टरिंग - भौतिक या अमूर्त वस्तुओं के समूह को समान वस्तुओं के वर्गों में संयोजित करने की अवस्था को क्लस्टरिंग कहा जाता है। क्लस्टर डेटा ऑब्जेक्ट्स का एक सेट है जो एक ही क्लस्टर के भीतर एक दूसरे के समान होते हैं और अन्य क्लस्टर में ऑब्जेक्ट्स से अलग होते हैं। डेटा ऑब्जेक्ट्स के एक समूह को सामूहिक रूप से कई अनुप्रयोगों में एक समूह के रूप में माना जा सकता है। क्लस्टर विश्लेषण एक आवश्यक मानवीय गतिविधि है।
प्रतिगमन -इन दृष्टिकोणों का उपयोग एक या एक से अधिक भविष्यवक्ता (स्वतंत्र) चर से प्रतिक्रिया (आश्रित) चर के मूल्य की भविष्यवाणी करने के लिए किया जाता है जहां चर संख्यात्मक होते हैं। प्रतिगमन के कई रूप हैं, जिनमें रैखिक, बहु, भारित, बहुपद, गैर-पैरामीट्रिक, और मजबूत (मजबूत तकनीक फायदेमंद होती है जब त्रुटियां सामान्य स्थिति को पूरा करने में विफल होती हैं या जब डेटा में महत्वपूर्ण आउटलेयर शामिल होते हैं)।
बाहरी पहचान - इस प्रकार की डेटा माइनिंग तकनीक डेटा सेट में डेटा आइटम के अवलोकन से संबंधित है, जो अपेक्षित पैटर्न या अपेक्षित व्यवहार से मेल नहीं खाती है। इस तकनीक का इस्तेमाल घुसपैठ, पता लगाने, धोखाधड़ी का पता लगाने आदि जैसे विभिन्न डोमेन में किया जा सकता है। इसे बाहरी विश्लेषण या बाहरी खनन के रूप में भी जाना जाता है।
अनुक्रमिक पैटर्न - अनुक्रमिक पैटर्न एक डेटा माइनिंग तकनीक है जो अनुक्रमिक पैटर्न खोजने के लिए अनुक्रमिक डेटा की गणना के लिए विशिष्ट है। इसमें अनुक्रमों के संग्रह में दिलचस्प बाद की खोज शामिल है, जहां एक अनुक्रम के हिस्से को लंबाई, घटना आवृत्ति, आदि जैसे कई तत्वों के संदर्भ में मापा जा सकता है।