डेटा माइनिंग सांख्यिकीय और गणितीय तकनीकों सहित पैटर्न पहचान तकनीकों का उपयोग करके, रिपॉजिटरी में सहेजे गए डेटा की एक उच्च मात्रा के माध्यम से उपयोगी नए सहसंबंध, पैटर्न और प्रवृत्तियों को खोजने की प्रक्रिया है। यह अनपेक्षित संबंधों की खोज करने के लिए तथ्यात्मक डेटासेट का विश्लेषण है और डेटा स्वामी के लिए तार्किक और सहायक दोनों तरह के नए तरीकों में रिकॉर्ड को सारांशित करना है।
डेटा माइनिंग के विभिन्न रूपांतरण हैं जो इस प्रकार हैं -
सामान्य, असामान्य, सीमा से बाहर, या असंभव तथ्यों को फ़्लैग करें - मापे गए तथ्यों को विशेष झंडे से चिह्नित करना पूरी तरह से फायदेमंद हो सकता है। कुछ मापे गए तथ्य सही हो सकते हैं लेकिन अत्यधिक असामान्य। शायद ये तथ्य एक छोटे से नमूने या किसी विशिष्ट परिस्थिति पर स्थापित होते हैं।
अन्य तथ्य डेटा में मौजूद हो सकते हैं लेकिन उन्हें असंभव या अकथनीय माना जाना चाहिए। इनमें से प्रत्येक परिस्थिति के लिए, डेटा को स्थिति ध्वज के साथ चिह्नित करना बेहतर है ताकि तालिका से असामान्य मान को हटाने के बजाय इसे विश्लेषण में या बाहर किया जा सके।
इन मामलों को संभालने का एक अच्छा तरीका तथ्य रिकॉर्ड के लिए एक विशेष डेटा स्थिति आयाम बनाना है। इसे इस आयाम को एक बाधा के रूप में और प्रत्येक तथ्य की स्थिति को परिभाषित करने की आवश्यकता हो सकती है।
संदर्भ से यादृच्छिक या शोर मानों को पहचानें और मास्क आउट करें - पूर्ववर्ती परिवर्तन का एक विशेष मामला यह पहचानना है कि कब विरासत प्रणाली ने वास्तविक तथ्य के बजाय एक यादृच्छिक संख्या प्रदान की है। ऐसा तब हो सकता है जब लीगेसी सिस्टम द्वारा कोई मान डिलीवर करने के लिए नहीं है, लेकिन बफ़र में बचे हुए नंबर को डेटा वेयरहाउस में भेज दिया गया है। जब इस मामले की पहचान की जाती है, तो यादृच्छिक संख्या को शून्य मान के साथ बहाल किया जाना चाहिए।
शून्य मानों पर एक समान व्यवहार लागू करें - डेटा माइनिंग टूल "अस्तित्व में नहीं हो सकता" और "अस्तित्व में है लेकिन अज्ञात है" के बीच अंतर के प्रति संवेदनशील हैं। कुछ डेटा माइनिंग पेशेवर दूसरे मामले में सबसे संभावित या औसत मान निर्दिष्ट करते हैं ताकि बाकी तथ्य तालिका रिकॉर्ड विश्लेषण में भाग ले सकें।
यह या तो मूल डेटा में अनुमानित मूल्य के साथ शून्य मान को ओवरराइट करके किया जा सकता है, या इसे एक परिष्कृत डेटा माइनिंग टूल द्वारा नियंत्रित किया जा सकता है जो विभिन्न विश्लेषण विकल्पों के साथ अशक्त डेटा को संसाधित करना जानता है।
बदली हुई स्थिति वाले तथ्य रिकॉर्ड को फ़्लैग करें - एक सहायक डेटा परिवर्तन एक तथ्य तालिका रिकॉर्ड में एक विशेष स्थिति संकेतक जोड़ना है ताकि यह दिखाया जा सके कि उस खाते (या ग्राहक या उत्पाद या स्थान) की स्थिति अभी बदली है या बदलने वाली है। स्थिति संकेतक को स्टार जॉइन डिज़ाइन में स्थिति आयाम के रूप में कार्यान्वित किया जाता है।