Computer >> कंप्यूटर ट्यूटोरियल >  >> प्रोग्रामिंग >> प्रोग्रामिंग

डेटा एकीकरण क्या है?

<घंटा/>

डेटा एकीकरण कई अलग-अलग स्रोतों से डेटा के संयोजन का चरण है। डेटा एकीकरण को लागू करते समय, इसे डेटा अतिरेक, असंगति, दोहराव, आदि पर काम करना चाहिए। डेटा माइनिंग में, डेटा एकीकरण एक डेटा प्री-प्रोसेसिंग तकनीक है जिसमें समेकित परिप्रेक्ष्य को बनाए रखने और समर्थन करने के लिए कई विषम डेटा स्रोतों से डेटा को सुसंगत डेटा में मर्ज करना शामिल है। जानकारी का।

यह विभिन्न स्रोतों से डेटा को एक सुसंगत डेटा स्टोर में जोड़ता है, जिसमें डेटा वेयरहाउसिंग भी शामिल है। इन स्रोतों में कई डेटाबेस, डेटा क्यूब या फ़्लैट फ़ाइलें आदि शामिल हो सकते हैं। डेटा एकीकरण के दौरान विचार करने के लिए कई मुद्दे हैं।

  • स्कीमा एकीकरण और वस्तु मिलान जटिल हो सकता है। उदाहरण के लिए, इकाई पहचान (एक डेटाबेस में emp_id और दूसरे डेटाबेस में emp_no) से मेल खाते हुए, ऐसे मुद्दों को मेटाडेटा का उपयोग करके रोका जा सकता है।

  • अतिरेक एक और मुद्दा है। उदाहरण के लिए, वार्षिक राजस्व सहित एक विशेषता बेमानी हो सकती है यदि इसे किसी अन्य विशेषता या विशेषताओं के सेट से प्राप्त किया जा सकता है। विशेषता या आयाम नामकरण में विसंगतियां भी प्रदर्शित होने वाले डेटा सेट में अतिरेक उत्पन्न कर सकती हैं।

  • सहसंबंध विश्लेषण द्वारा कुछ अतिरेक का पता लगाया जा सकता है। दो विशेषताओं को देखते हुए, ऐसा विश्लेषण उपलब्ध आंकड़ों के आधार पर गणना कर सकता है कि एक विशेषता दूसरे को कितनी मजबूती से दर्शाती है। संख्यात्मक विशेषताओं के लिए, यह सहसंबंध गुणांक की गणना करके दो विशेषताओं, ए और बी के बीच सहसंबंध का मूल्यांकन कर सकता है (जिसे पियर्सन के उत्पाद-क्षण गुणांक के रूप में भी जाना जाता है, जिसका नाम इसके आविष्कारक कार्ल पियर्सन के नाम पर रखा गया है)। यह है

$$r_{A,B}=\frac{\sum_{i=1}^{n}(a_{i}-A^{'})(b_{i}-B^{'})}{N \sigma _{A}\sigma _{B}}=\frac{\sum_{i=1}^{n}(a_{i}b_{i})-NA^{'}B^{'}} {N\sigma _{A}\sigma _{B}}$$

जहाँ N टुपल्स की संख्या है, ai और bi टपल i, A ' . में A और B के संबंधित मान हैं और बी ' A और B के संबंधित माध्य मान हैं, A और σ<उप>बी ए और बी के संबंधित मानक विचलन हैं और Σ(ai बी<उप>मैं ) AB क्रॉस-उत्पाद का योग है, अर्थात प्रत्येक टपल के लिए, A के मान को उस टपल में B के मान से गुणा किया जाता है।

सहसंबंध का अर्थ कार्य-कारण नहीं है। यही है, यदि ए और बी सहसंबद्ध हैं, तो इसका मतलब यह नहीं है कि ए बी का कारण बनता है या बी कारण ए। उदाहरण के लिए, जनसांख्यिकीय डेटाबेस का विश्लेषण करने में, यह कई अस्पतालों और कई कार चोरी को परिभाषित करने वाली विशेषताओं को पा सकता है। क्षेत्र सहसंबद्ध हैं। यह परिभाषित नहीं करता है कि एक दूसरे का कारण बनता है। दोनों आम तौर पर एक तीसरी विशेषता से जुड़े होते हैं, जैसे कि जनसंख्या।

डेटा एकीकरण में तीसरा महत्वपूर्ण मुद्दा डेटा मूल्य संघर्षों का पता लगाना और उनका समाधान करना है। उदाहरण के लिए, एक ही वास्तविक-विश्व निकाय के लिए, एकाधिक स्रोतों से विशेषता मान भिन्न हो सकते हैं। यह प्रतिनिधित्व, स्केलिंग या एन्कोडिंग में अंतर के कारण हो सकता है।


  1. डेटा सेंटर क्या है? डेटा सेंटर क्या है?

    एक डेटा केंद्र, जिसे कभी-कभी डेटासेंटर . के रूप में लिखा जाता है (एक शब्द), एक ऐसी सुविधा को दिया गया नाम है जिसमें बड़ी संख्या में कंप्यूटर सर्वर और संबंधित उपकरण होते हैं। एक डेटा सेंटर को कंप्यूटर रूम के रूप में सोचें जो इसकी दीवारों को बढ़ा देता है। वे किसी भी तरह का डेटा स्टोर कर सकते हैं, चाह

  1. - डेटा प्रीप्रोसेसिंग में क्या कार्य हैं?

    डेटा प्रीप्रोसेसिंग में प्रमुख चरण शामिल हैं, अर्थात् डेटा सफाई, डेटा एकीकरण, डेटा कमी, और डेटा परिवर्तन निम्नानुसार है - डेटा क्लीनिंग - डेटा क्लीनिंग रूटीन गुम मूल्यों को भरकर, शोर की जानकारी को सुचारू करके, आउटलेर्स को पहचानने या समाप्त करने और विचलन को हल करके जानकारी को साफ करने के लिए संचालित

  1. सीरियलाइजेशन क्या है? सीरियलाइजेशन क्या है?

    हाल ही में एक प्रोजेक्ट अपडेट मीटिंग के दौरान, मेरी टीम ने इस बारे में बात की कि हम इस एप्लिकेशन से डेटा को आगे और पीछे भेजने के लिए क्रमांकन का उपयोग कैसे करने जा रहे हैं। एक इंजीनियर जो सॉफ्टवेयर परियोजनाओं में और अधिक काम करना चाह रहा था, उसने मुझे बताया कि वे इस शब्द से अपरिचित थे। इस तरह की