Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

डेटा एकीकरण क्या है?

<घंटा/>

डेटा एकीकरण कई अलग-अलग स्रोतों से डेटा के संयोजन का चरण है। डेटा एकीकरण को लागू करते समय, इसे डेटा अतिरेक, असंगति, दोहराव, आदि पर काम करना चाहिए। डेटा माइनिंग में, डेटा एकीकरण एक डेटा प्री-प्रोसेसिंग तकनीक है जिसमें समेकित परिप्रेक्ष्य को बनाए रखने और समर्थन करने के लिए कई विषम डेटा स्रोतों से डेटा को सुसंगत डेटा में मर्ज करना शामिल है। जानकारी का।

यह विभिन्न स्रोतों से डेटा को एक सुसंगत डेटा स्टोर में जोड़ता है, जिसमें डेटा वेयरहाउसिंग भी शामिल है। इन स्रोतों में कई डेटाबेस, डेटा क्यूब या फ़्लैट फ़ाइलें आदि शामिल हो सकते हैं। डेटा एकीकरण के दौरान विचार करने के लिए कई मुद्दे हैं।

  • स्कीमा एकीकरण और वस्तु मिलान जटिल हो सकता है। उदाहरण के लिए, इकाई पहचान (एक डेटाबेस में emp_id और दूसरे डेटाबेस में emp_no) से मेल खाते हुए, ऐसे मुद्दों को मेटाडेटा का उपयोग करके रोका जा सकता है।

  • अतिरेक एक और मुद्दा है। उदाहरण के लिए, वार्षिक राजस्व सहित एक विशेषता बेमानी हो सकती है यदि इसे किसी अन्य विशेषता या विशेषताओं के सेट से प्राप्त किया जा सकता है। विशेषता या आयाम नामकरण में विसंगतियां भी प्रदर्शित होने वाले डेटा सेट में अतिरेक उत्पन्न कर सकती हैं।

  • सहसंबंध विश्लेषण द्वारा कुछ अतिरेक का पता लगाया जा सकता है। दो विशेषताओं को देखते हुए, ऐसा विश्लेषण उपलब्ध आंकड़ों के आधार पर गणना कर सकता है कि एक विशेषता दूसरे को कितनी मजबूती से दर्शाती है। संख्यात्मक विशेषताओं के लिए, यह सहसंबंध गुणांक की गणना करके दो विशेषताओं, ए और बी के बीच सहसंबंध का मूल्यांकन कर सकता है (जिसे पियर्सन के उत्पाद-क्षण गुणांक के रूप में भी जाना जाता है, जिसका नाम इसके आविष्कारक कार्ल पियर्सन के नाम पर रखा गया है)। यह है

$$r_{A,B}=\frac{\sum_{i=1}^{n}(a_{i}-A^{'})(b_{i}-B^{'})}{N \sigma _{A}\sigma _{B}}=\frac{\sum_{i=1}^{n}(a_{i}b_{i})-NA^{'}B^{'}} {N\sigma _{A}\sigma _{B}}$$

जहाँ N टुपल्स की संख्या है, ai और bi टपल i, A ' . में A और B के संबंधित मान हैं और बी ' A और B के संबंधित माध्य मान हैं, A और σ<उप>बी ए और बी के संबंधित मानक विचलन हैं और Σ(ai बी<उप>मैं ) AB क्रॉस-उत्पाद का योग है, अर्थात प्रत्येक टपल के लिए, A के मान को उस टपल में B के मान से गुणा किया जाता है।

सहसंबंध का अर्थ कार्य-कारण नहीं है। यही है, यदि ए और बी सहसंबद्ध हैं, तो इसका मतलब यह नहीं है कि ए बी का कारण बनता है या बी कारण ए। उदाहरण के लिए, जनसांख्यिकीय डेटाबेस का विश्लेषण करने में, यह कई अस्पतालों और कई कार चोरी को परिभाषित करने वाली विशेषताओं को पा सकता है। क्षेत्र सहसंबद्ध हैं। यह परिभाषित नहीं करता है कि एक दूसरे का कारण बनता है। दोनों आम तौर पर एक तीसरी विशेषता से जुड़े होते हैं, जैसे कि जनसंख्या।

डेटा एकीकरण में तीसरा महत्वपूर्ण मुद्दा डेटा मूल्य संघर्षों का पता लगाना और उनका समाधान करना है। उदाहरण के लिए, एक ही वास्तविक-विश्व निकाय के लिए, एकाधिक स्रोतों से विशेषता मान भिन्न हो सकते हैं। यह प्रतिनिधित्व, स्केलिंग या एन्कोडिंग में अंतर के कारण हो सकता है।


  1. डेटा सेंटर क्या है?

    एक डेटा केंद्र, जिसे कभी-कभी डेटासेंटर . के रूप में लिखा जाता है (एक शब्द), एक ऐसी सुविधा को दिया गया नाम है जिसमें बड़ी संख्या में कंप्यूटर सर्वर और संबंधित उपकरण होते हैं। एक डेटा सेंटर को कंप्यूटर रूम के रूप में सोचें जो इसकी दीवारों को बढ़ा देता है। वे किसी भी तरह का डेटा स्टोर कर सकते हैं, चाह

  1. डेटा प्रीप्रोसेसिंग में क्या कार्य हैं?

    डेटा प्रीप्रोसेसिंग में प्रमुख चरण शामिल हैं, अर्थात् डेटा सफाई, डेटा एकीकरण, डेटा कमी, और डेटा परिवर्तन निम्नानुसार है - डेटा क्लीनिंग - डेटा क्लीनिंग रूटीन गुम मूल्यों को भरकर, शोर की जानकारी को सुचारू करके, आउटलेर्स को पहचानने या समाप्त करने और विचलन को हल करके जानकारी को साफ करने के लिए संचालित

  1. सीरियलाइजेशन क्या है?

    हाल ही में एक प्रोजेक्ट अपडेट मीटिंग के दौरान, मेरी टीम ने इस बारे में बात की कि हम इस एप्लिकेशन से डेटा को आगे और पीछे भेजने के लिए क्रमांकन का उपयोग कैसे करने जा रहे हैं। एक इंजीनियर जो सॉफ्टवेयर परियोजनाओं में और अधिक काम करना चाह रहा था, उसने मुझे बताया कि वे इस शब्द से अपरिचित थे। इस तरह की