डेटा एकीकरण कई अलग-अलग स्रोतों से डेटा के संयोजन का चरण है। डेटा एकीकरण को लागू करते समय, इसे डेटा अतिरेक, असंगति, दोहराव, आदि पर काम करना चाहिए। डेटा माइनिंग में, डेटा एकीकरण एक डेटा प्री-प्रोसेसिंग तकनीक है जिसमें समेकित परिप्रेक्ष्य को बनाए रखने और समर्थन करने के लिए कई विषम डेटा स्रोतों से डेटा को सुसंगत डेटा में मर्ज करना शामिल है। जानकारी का।
यह विभिन्न स्रोतों से डेटा को एक सुसंगत डेटा स्टोर में जोड़ता है, जिसमें डेटा वेयरहाउसिंग भी शामिल है। इन स्रोतों में कई डेटाबेस, डेटा क्यूब या फ़्लैट फ़ाइलें आदि शामिल हो सकते हैं। डेटा एकीकरण के दौरान विचार करने के लिए कई मुद्दे हैं।
-
स्कीमा एकीकरण और वस्तु मिलान जटिल हो सकता है। उदाहरण के लिए, इकाई पहचान (एक डेटाबेस में emp_id और दूसरे डेटाबेस में emp_no) से मेल खाते हुए, ऐसे मुद्दों को मेटाडेटा का उपयोग करके रोका जा सकता है।
-
अतिरेक एक और मुद्दा है। उदाहरण के लिए, वार्षिक राजस्व सहित एक विशेषता बेमानी हो सकती है यदि इसे किसी अन्य विशेषता या विशेषताओं के सेट से प्राप्त किया जा सकता है। विशेषता या आयाम नामकरण में विसंगतियां भी प्रदर्शित होने वाले डेटा सेट में अतिरेक उत्पन्न कर सकती हैं।
-
सहसंबंध विश्लेषण द्वारा कुछ अतिरेक का पता लगाया जा सकता है। दो विशेषताओं को देखते हुए, ऐसा विश्लेषण उपलब्ध आंकड़ों के आधार पर गणना कर सकता है कि एक विशेषता दूसरे को कितनी मजबूती से दर्शाती है। संख्यात्मक विशेषताओं के लिए, यह सहसंबंध गुणांक की गणना करके दो विशेषताओं, ए और बी के बीच सहसंबंध का मूल्यांकन कर सकता है (जिसे पियर्सन के उत्पाद-क्षण गुणांक के रूप में भी जाना जाता है, जिसका नाम इसके आविष्कारक कार्ल पियर्सन के नाम पर रखा गया है)। यह है
$$r_{A,B}=\frac{\sum_{i=1}^{n}(a_{i}-A^{'})(b_{i}-B^{'})}{N \sigma _{A}\sigma _{B}}=\frac{\sum_{i=1}^{n}(a_{i}b_{i})-NA^{'}B^{'}} {N\sigma _{A}\sigma _{B}}$$
जहाँ N टुपल्स की संख्या है, ai और bi टपल i, A ' . में A और B के संबंधित मान हैं और बी ' A और B के संबंधित माध्य मान हैं, A और σ<उप>बीउप> ए और बी के संबंधित मानक विचलन हैं और Σ(ai बी<उप>मैंउप> ) AB क्रॉस-उत्पाद का योग है, अर्थात प्रत्येक टपल के लिए, A के मान को उस टपल में B के मान से गुणा किया जाता है।
सहसंबंध का अर्थ कार्य-कारण नहीं है। यही है, यदि ए और बी सहसंबद्ध हैं, तो इसका मतलब यह नहीं है कि ए बी का कारण बनता है या बी कारण ए। उदाहरण के लिए, जनसांख्यिकीय डेटाबेस का विश्लेषण करने में, यह कई अस्पतालों और कई कार चोरी को परिभाषित करने वाली विशेषताओं को पा सकता है। क्षेत्र सहसंबद्ध हैं। यह परिभाषित नहीं करता है कि एक दूसरे का कारण बनता है। दोनों आम तौर पर एक तीसरी विशेषता से जुड़े होते हैं, जैसे कि जनसंख्या।
डेटा एकीकरण में तीसरा महत्वपूर्ण मुद्दा डेटा मूल्य संघर्षों का पता लगाना और उनका समाधान करना है। उदाहरण के लिए, एक ही वास्तविक-विश्व निकाय के लिए, एकाधिक स्रोतों से विशेषता मान भिन्न हो सकते हैं। यह प्रतिनिधित्व, स्केलिंग या एन्कोडिंग में अंतर के कारण हो सकता है।