एक्सट्रैक्शन एक डेटा वेयरहाउस वातावरण में अतिरिक्त सहायता के लिए स्रोत सिस्टम से जानकारी निकालने की सेवा है। यह ईटीएल प्रक्रिया की पहली प्रक्रिया है। निष्कर्षण के बाद, इस डेटा को बदला जा सकता है और डेटा वेयरहाउस में लोड किया जा सकता है। डेटा वेयरहाउस के लिए सोर्स सिस्टम आमतौर पर ट्रांजेक्शन प्रोसेसिंग सॉफ्टवेयर होते हैं। यह एक बिक्री विश्लेषण के लिए स्रोत सिस्टम है डेटा वेयरहाउस एक ऑर्डर एंट्री सिस्टम हो सकता है जो सभी मौजूदा ऑर्डर गतिविधियों को डेटा करता है।
डेटा निष्कर्षण वह जगह है जहां डेटा पर विचार किया जाता है और एक निश्चित डिज़ाइन में डेटा स्रोतों (जैसे डेटाबेस) से प्रासंगिक जानकारी प्राप्त करने के लिए स्थानांतरित किया जाता है। आगे की डेटा प्रोसेसिंग पूरी हो गई है, जिसमें मेटाडेटा और अन्य डेटा एकीकरण सम्मिलित करना शामिल है; डेटा वर्कफ़्लो में एक और प्रक्रिया।
डेटा निष्कर्षण का बड़ा हिस्सा असंरचित डेटा स्रोतों और कई डेटा संरचनाओं से प्रकट होता है। यह असंरचित डेटा टेबल, इंडेक्स और एनालिटिक्स सहित किसी भी रूप में हो सकता है।
एक वेयरहाउस में डेटा कई स्रोतों से प्रकट हो सकता है, एक डेटा वेयरहाउस को आने वाले रिकॉर्ड का उपयोग करने के लिए तीन अलग-अलग तकनीकों की आवश्यकता होती है। इन प्रक्रियाओं को निष्कर्षण, परिवर्तन और लोडिंग (ETL) कहा जाता है।
डेटा निष्कर्षण की प्रक्रिया में गन्दा डेटा स्रोतों से जानकारी की पुनर्प्राप्ति शामिल है। डेटा अर्क रिलेशनल डेटाबेस के स्टेजिंग ऑपरेशन में लोड किए जाते हैं। इसलिए निष्कर्षण तर्क का उपयोग किया जाता है और स्रोत प्रणाली को सॉफ्टवेयर प्रोग्रामिंग इंटरफेस का उपयोग करके डेटा के लिए कहा जाता है।
डेटा निष्कर्षण टूल के प्रकार
विभिन्न प्रकार के डेटा निष्कर्षण उपकरण हैं जो इस प्रकार हैं -
बैच संसाधन उपकरण - लीगेसी डेटा निष्कर्षण उपकरण इस डेटा को बैचों में बनाते हैं, आमतौर पर ऑफ-आवर्स के दौरान उच्च मात्रा में मूल्यांकन शक्ति का उपयोग करने के प्रभाव को कम करने के लिए। डेटा स्रोतों के मामूली सजातीय सेट के साथ बंद, ऑन-प्रिमाइसेस सेटिंग के लिए, बैच निष्कर्षण समाधान सबसे अच्छा तरीका हो सकता है।
ओपन सोर्स टूल - ओपन सोर्स टूल्स बजट-सीमित सॉफ़्टवेयर के लिए सबसे उपयुक्त हो सकते हैं, इस क्षेत्र में सहायक ढांचे और ज्ञान को देखते हुए। विभिन्न विक्रेता खुले स्रोत के रूप में भी अपने उत्पादों की सीमित या "हल्का" व्याख्या प्रदान करते हैं।
क्लाउड-आधारित टूल - क्लाउड-आधारित उपकरण निष्कर्षण उत्पादों की वर्तमान पीढ़ी हैं। लक्ष्य ईटीएल/ईएलटी प्रक्रिया के एक तत्व के रूप में डेटा के रीयल-टाइम निष्कर्षण पर है और क्लाउड-आधारित टूल इस स्थान में उत्कृष्टता प्राप्त करते हैं, डेटा भंडारण और विश्लेषण के लिए समर्थन के लिए सभी क्लाउड का लाभ उठाते हैं। ये उपकरण समस्या को सुरक्षा और समझौते से भी बाहर निकालते हैं क्योंकि आज के क्लाउड विक्रेता इन क्षेत्रों को लक्षित करने के लिए लगातार बने हुए हैं, इस विशेषज्ञता को घर में बनाने की आवश्यकता को समाप्त कर रहे हैं।