डेटा माइनिंग सांख्यिकीय और गणितीय तकनीकों सहित पैटर्न पहचान तकनीकों का उपयोग करके, रिपॉजिटरी में सहेजे गए डेटा की एक उच्च मात्रा के माध्यम से उपयोगी नए सहसंबंध, पैटर्न और प्रवृत्तियों को खोजने की प्रक्रिया है। यह अनपेक्षित संबंधों की खोज करने के लिए तथ्यात्मक डेटासेट का विश्लेषण है और डेटा स्वामी के लिए तार्किक और सहायक दोनों तरह के नए तरीकों में रिकॉर्ड को सारांशित करना है।
डेटा माइनिंग की विभिन्न अवधारणाएँ हैं जो इस प्रकार हैं -
वर्गीकरण - वर्गीकरण एक मॉडल की खोज करने की प्रक्रिया है जो डेटा वर्गों या अवधारणाओं का प्रतिनिधित्व करता है और उन्हें अलग करता है, जिसका उद्देश्य उन वस्तुओं के वर्ग की भविष्यवाणी करने के लिए मॉडल का उपयोग करने में सक्षम होना है जिनका वर्ग लेबल गुमनाम है। व्युत्पन्न मॉडल प्रशिक्षण रिकॉर्ड के एक समूह के विश्लेषण पर आधारित है (यानी, डेटा ऑब्जेक्ट जिसका वर्ग लेबल परिचित है)।
भविष्यवाणियां - भविष्यवाणी वर्गीकरण के समान है, सिवाय इसके कि भविष्यवाणी के लिए, परिणाम भविष्य में गलत तरीके से प्रस्तुत किए जाते हैं।
व्यापार और अनुसंधान में पूर्वानुमान कार्यों के उदाहरणों में शामिल हैं -
-
यह भविष्य में तीन महीने में स्टॉक के मूल्य की भविष्यवाणी कर सकता है।
-
यदि गति सीमा बढ़ा दी जाती है तो यह अगले वर्ष यातायात से होने वाली मौतों में प्रतिशत वृद्धि की भविष्यवाणी कर सकता है।
-
यह टीम के आंकड़ों के पत्राचार के आधार पर, इस गिरावट की बेसबॉल विश्व श्रृंखला के विजेता की भविष्यवाणी कर सकता है।
-
इसका अनुमान लगाया जा सकता है कि क्या दवा की खोज में एक निश्चित अणु एक दवा कंपनी के लिए एक लागत प्रभावी नई दवा शुरू करेगा।
एसोसिएशन नियम और अनुशंसा प्रणाली - एसोसिएशन के नियम, या आत्मीयता विश्लेषण, बड़े डेटाबेस में वस्तुओं के बीच ऐसे सामान्य संघों के पैटर्न को खोजने के लिए डिज़ाइन किए गए हैं। नियमों का उपयोग कई तरीकों से किया जा सकता है। उदाहरण के लिए, किराना स्टोर उत्पाद प्लेसमेंट के लिए ऐसी जानकारी का उपयोग कर सकते हैं।
वे साप्ताहिक प्रचार ऑफ़र या उत्पादों को बंडल करने के लिए नियमों का उपयोग कर सकते हैं। लगातार अस्पताल में भर्ती होने के दौरान रोगियों के लक्षणों पर एक अस्पताल डेटाबेस से प्राप्त एसोसिएशन नियम "कौन से लक्षण के बाद कौन सा लक्षण" खोजने में मदद कर सकते हैं ताकि आने वाले रोगियों के भविष्य के लक्षणों की भविष्यवाणी करने में मदद मिल सके।
डेटा में कमी - डेटा माइनिंग का उपयोग बड़ी मात्रा में डेटाबेस में चयनित डेटा के लिए किया जाता है। जब डेटा विश्लेषण और खनन भारी मात्रा में रिकॉर्ड पर पूरा हो जाता है तो इसे संसाधित करने में बहुत अधिक समय लगता है, जो इसे असंभव और असंभव विकसित करता है।
यह डेटा विश्लेषण के लिए प्रसंस्करण समय को कम कर सकता है, डेटा कमी तकनीकों का उपयोग डेटासेट के कम प्रतिनिधित्व को प्राप्त करने के लिए किया जाता है जो मूल डेटा की अखंडता को बनाए रखते हुए मात्रा में बहुत छोटा होता है। डेटा को कम करके, डेटा माइनिंग प्रक्रिया की दक्षता में सुधार होता है जो समान विश्लेषणात्मक परिणाम उत्पन्न करता है।
डेटा में कमी का उद्देश्य इसे और अधिक कॉम्पैक्ट रूप से परिभाषित करना है। जब डेटा का आकार छोटा होता है, तो परिपक्व और कम्प्यूटेशनल रूप से उच्च लागत वाले एल्गोरिदम का उपयोग करना आसान होता है। डेटा की कमी पंक्तियों की संख्या (रिकॉर्ड) या स्तंभों की संख्या (आयाम) के संदर्भ में हो सकती है।