डेटा वेयरहाउसिंग एक दृष्टिकोण है जो व्यवसाय को एक सार्थक व्यावसायिक अंतर्दृष्टि प्रदान करने के लिए कई स्रोतों से डेटा एकत्र और संभाल सकता है। डेटा वेयरहाउस विशेष रूप से प्रबंधन निर्णयों का समर्थन करने के लिए डिज़ाइन किया गया है।
सरल शब्दों में, डेटा वेयरहाउस एक डेटाबेस को परिभाषित करता है जिसे किसी संगठन के परिचालन डेटाबेस से स्वतंत्र रूप से बनाए रखा जाता है। डेटा वेयरहाउस सिस्टम कई एप्लिकेशन सिस्टम के एकीकरण को सक्षम बनाता है। वे विश्लेषण के लिए समेकित, ऐतिहासिक जानकारी का एक ठोस मंच प्रदान करके डेटा प्रोसेसिंग प्रदान करते हैं।
डेटा वेयरहाउस बहुआयामी अंतरिक्ष में डेटा को सामान्यीकृत और केंद्रीकृत करते हैं। डेटा वेयरहाउस के निर्माण में डेटा क्लीनिंग, डेटा इंटीग्रेशन और डेटा ट्रांसफ़ॉर्मेशन शामिल हैं और इसे डेटा माइनिंग के लिए एक महत्वपूर्ण प्रीप्रोसेसिंग चरण के रूप में देखा जा सकता है।
यह विभिन्न ग्रैन्युलैरिटी के बहुआयामी डेटा के इंटरैक्टिव विश्लेषण के लिए ऑनलाइन विश्लेषणात्मक प्रसंस्करण (ओएलएपी) उपकरण प्रदान करता है, जो प्रभावी डेटा सामान्यीकरण और डेटा खनन की सुविधा प्रदान करता है। एब्स्ट्रैक्शन के विभिन्न स्तरों पर ज्ञान के इंटरेक्टिव माइनिंग का निर्माण करने के लिए एसोसिएशन, वर्गीकरण, भविष्यवाणी और क्लस्टरिंग सहित कई डेटा माइनिंग फंक्शन OLAP ऑपरेशंस के साथ एकीकृत किए जा सकते हैं।
OLAP एक व्यापक शब्द है जो डेटा वेयरहाउसिंग को भी घेरता है। इस मॉडल में, डेटा को एक प्रारूप में सहेजा जाता है, जो डेटा माइनिंग/दस्तावेजों के प्रभावी निर्माण की अनुमति देता है। OLAP डिज़ाइन को परिचालन प्रभावशीलता में एक छोटे से गिरावट के साथ बड़े रिकॉर्डसेट पर दस्तावेज़ीकरण को समायोजित करना चाहिए।
OLTP संरचना में डेटा संरचना लेने और OLAP संरचना में समान डेटा को प्रभावित करने वाला संपूर्ण शब्द "आयामी मॉडलिंग" है यह डेटा वेयरहाउसिंग का मूल निर्माण खंड है।
प्रदर्शन को बेहतर बनाने के लिए डेटा वेयरहाउस की ट्यूनिंग की जा सकती है। डेटा वेयरहाउस सिस्टम में प्रवेश बिंदु है, और यह प्रदर्शन में सुधार करने का पहला अवसर प्रदान करता है। यदि डेटा लोड होने से पहले या बाद में डेटा वेयरहाउस सिस्टम पर जांच की जाती है, तो इसका सिस्टम की क्षमता और प्रदर्शन पर सीधा प्रभाव पड़ेगा।
उदाहरण के लिए, यदि डेटा टेलीफोन कॉल रिकॉर्ड है, तो यह जांचा जा सकता है कि प्रत्येक कॉल में एक वैध ग्राहक पहचानकर्ता है। यदि डेटा बिक्री की जानकारी है तो यह जांचा जा सकता है कि बेची जा रही वस्तु का वैध उत्पाद पहचानकर्ता है या नहीं।
बड़ी मात्रा में डेटा लोड करना या भारी I/O ऑपरेशन करना, CPU गहन हो सकता है जब प्रत्येक रिकॉर्ड पर बहुत सारे चेक और ट्रांसफॉर्मेशन लागू होते हैं। प्रत्यक्ष लोड तकनीकों का उपयोग करके लोडिंग गति में सुधार किया जा सकता है। इसे समानांतरवाद का उपयोग करके भी सुधारा जा सकता है।
निम्नलिखित चरण हैं जो डेटा वेयरहाउस को ट्यून करने के लिए सर्वोत्तम विधि प्रदान करते हैं -
- व्यावसायिक नियमों को ट्यून करें।
- डेटा डिज़ाइन को ट्यून करें।
- एप्लिकेशन डिज़ाइन को ट्यून करें।
- डेटाबेस की तार्किक संरचना को ट्यून करें।
- डेटाबेस संचालन को ट्यून करें।
- पहुंच पथ ट्यून करें।
- I/O और भौतिक संरचना को ट्यून करें।
- संसाधन विवाद को ट्यून करें।
- अंतर्निहित पैटर्न को ट्यून करें।