डेटा वेयरहाउसिंग एक ऐसी तकनीक है जिसका उपयोग मुख्य रूप से व्यवसाय को एक सार्थक व्यावसायिक अंतर्दृष्टि देने के लिए विभिन्न स्रोतों से डेटा एकत्र करने और प्रबंधित करने के लिए किया जाता है। डेटा वेयरहाउस विशेष रूप से प्रबंधन निर्णयों का समर्थन करने के लिए डिज़ाइन किया गया है।
सरल शब्दों में, डेटा वेयरहाउस एक डेटाबेस को संदर्भित करता है जिसे किसी संगठन के परिचालन डेटाबेस से अलग रखा जाता है। डेटा वेयरहाउस सिस्टम कई एप्लिकेशन सिस्टम के एकीकरण को सक्षम बनाता है। वे विश्लेषण के लिए समेकित, ऐतिहासिक जानकारी के एक ठोस मंच का समर्थन करके डेटा प्रोसेसिंग प्रदान करते हैं।
डेटा वेयरहाउस बहुआयामी क्षेत्र में जानकारी को सामान्य और समेकित करते हैं। डेटा वेयरहाउस के निर्माण में डेटा सफाई, डेटा एकीकरण और डेटा परिवर्तन शामिल हैं और इसे डेटा माइनिंग के लिए एक आवश्यक पूर्व-प्रसंस्करण चरण के रूप में माना जा सकता है। इन उपकरणों और उपयोगिताओं में निम्नलिखित कार्य शामिल हैं -
डेटा निष्कर्षण
डेटा सफाई - डेटा क्लीनिंग का अर्थ है लापता मानों को भरकर डेटा को साफ करना, शोर वाले डेटा को सुचारू करना, आउटलेर्स को पहचानना और निकालना, और डेटा में विसंगतियों को दूर करना।
डेटा की सफाई के प्रकार
-
अनुपलब्ध मान - गुम मान उपयुक्त मानों से भरे हुए हैं। मानों को भरने के तरीके निम्नलिखित हैं।
-
शोरगुल वाला डेटा - शोर एक मापा चर में एक यादृच्छिक त्रुटि या भिन्नता है। शोर से निपटने के लिए स्मूदिंग तकनीकें निम्नलिखित हैं जो इस प्रकार हैं -
-
बिनिंग - ये तकनीकें अपने "पड़ोस", अर्थात् शोर डेटा के बारे में सलाह द्वारा क्रमबद्ध डेटा मान को सुचारू करती हैं। सॉर्ट किए गए मान एकाधिक बाल्टी या डिब्बे में असाइन किए जाते हैं। क्योंकि बिनिंग विधियाँ मूल्यों के पड़ोस से परामर्श करती हैं, वे स्थानीय चौरसाई को लागू करती हैं।
-
प्रतिगमन - रिग्रेशन सहित, किसी फ़ंक्शन में रिकॉर्ड्स को फ़िट करके डेटा को सुचारू किया जा सकता है। रैखिक प्रतिगमन में दो विशेषताओं (या चर) को फिट करने के लिए "सर्वश्रेष्ठ" रेखा खोजना शामिल है ताकि एक विशेषता का उपयोग दूसरे की भविष्यवाणी करने के लिए किया जा सके। एकाधिक रैखिक प्रतिगमन रैखिक प्रतिगमन की निरंतरता है, जहां दो से अधिक विशेषताओं को शामिल किया जाता है और डेटा एक बहुआयामी सतह पर फिट होते हैं।
-
क्लस्टरिंग - क्लस्टरिंग आउटलेर्स की पहचान करने में मदद करता है। समान मूल्यों को समूहों में व्यवस्थित किया जाता है और वे मूल्य जो क्लस्टर के बाहर आते हैं, आउटलेयर कहलाते हैं।
-
डेटा परिवर्तन - डेटा परिवर्तन में, डेटा को खनन के लिए उपयुक्त रूपों में रूपांतरित या समेकित किया जाता है। डेटा परिवर्तन में निम्नलिखित शामिल हो सकते हैं -
-
चिकनाई - यह डेटा से शोर को दूर करने का काम कर सकता है। ऐसी तकनीकों में बिनिंग, रिग्रेशन और क्लस्टरिंग शामिल हैं।
-
एकत्रीकरण - एग्रीगेशन में, जहां डेटा पर सारांश या एग्रीगेशन ऑपरेशंस लागू होते हैं।
-
सामान्यीकरण - सामान्यीकरण में, जहां निम्न-स्तरीय या "आदिम" (कच्चा) डेटा को अवधारणा पदानुक्रमों के उपयोग के माध्यम से बड़े-स्तर की अवधारणाओं द्वारा पुनर्स्थापित किया जाता है।
लोड करें - यह सॉर्ट कर सकता है, सारांशित कर सकता है, समेकित कर सकता है, विचारों की गणना कर सकता है, अखंडता की जांच कर सकता है, और सूचकांक और विभाजन बना सकता है
रीफ्रेश करें - यह डेटा स्रोतों से डेटा वेयरहाउस में अपडेट का प्रचार कर सकता है।