Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

डेटा निष्कर्षण क्या है?

<घंटा/>

एक्सट्रैक्शन एक डेटा वेयरहाउस वातावरण में अतिरिक्त सहायता के लिए स्रोत सिस्टम से जानकारी निकालने की सेवा है। यह ईटीएल प्रक्रिया की पहली प्रक्रिया है। निष्कर्षण के बाद, इस डेटा को बदला जा सकता है और डेटा वेयरहाउस में लोड किया जा सकता है। डेटा वेयरहाउस के लिए सोर्स सिस्टम आमतौर पर ट्रांजेक्शन प्रोसेसिंग सॉफ्टवेयर होते हैं। यह एक बिक्री विश्लेषण के लिए स्रोत सिस्टम है डेटा वेयरहाउस एक ऑर्डर एंट्री सिस्टम हो सकता है जो सभी मौजूदा ऑर्डर गतिविधियों को डेटा करता है।

डेटा निष्कर्षण वह जगह है जहां डेटा पर विचार किया जाता है और एक निश्चित डिज़ाइन में डेटा स्रोतों (जैसे डेटाबेस) से प्रासंगिक जानकारी प्राप्त करने के लिए स्थानांतरित किया जाता है। आगे की डेटा प्रोसेसिंग पूरी हो गई है, जिसमें मेटाडेटा और अन्य डेटा एकीकरण सम्मिलित करना शामिल है; डेटा वर्कफ़्लो में एक और प्रक्रिया।

डेटा निष्कर्षण का बड़ा हिस्सा असंरचित डेटा स्रोतों और कई डेटा संरचनाओं से प्रकट होता है। यह असंरचित डेटा टेबल, इंडेक्स और एनालिटिक्स सहित किसी भी रूप में हो सकता है।

एक वेयरहाउस में डेटा कई स्रोतों से प्रकट हो सकता है, एक डेटा वेयरहाउस को आने वाले रिकॉर्ड का उपयोग करने के लिए तीन अलग-अलग तकनीकों की आवश्यकता होती है। इन प्रक्रियाओं को निष्कर्षण, परिवर्तन और लोडिंग (ETL) कहा जाता है।

डेटा निष्कर्षण की प्रक्रिया में गन्दा डेटा स्रोतों से जानकारी की पुनर्प्राप्ति शामिल है। डेटा अर्क रिलेशनल डेटाबेस के स्टेजिंग ऑपरेशन में लोड किए जाते हैं। इसलिए निष्कर्षण तर्क का उपयोग किया जाता है और स्रोत प्रणाली को सॉफ्टवेयर प्रोग्रामिंग इंटरफेस का उपयोग करके डेटा के लिए कहा जाता है।

डेटा निष्कर्षण टूल के प्रकार

विभिन्न प्रकार के डेटा निष्कर्षण उपकरण हैं जो इस प्रकार हैं -

बैच संसाधन उपकरण - लीगेसी डेटा निष्कर्षण उपकरण इस डेटा को बैचों में बनाते हैं, आमतौर पर ऑफ-आवर्स के दौरान उच्च मात्रा में मूल्यांकन शक्ति का उपयोग करने के प्रभाव को कम करने के लिए। डेटा स्रोतों के मामूली सजातीय सेट के साथ बंद, ऑन-प्रिमाइसेस सेटिंग के लिए, बैच निष्कर्षण समाधान सबसे अच्छा तरीका हो सकता है।

ओपन सोर्स टूल - ओपन सोर्स टूल्स बजट-सीमित सॉफ़्टवेयर के लिए सबसे उपयुक्त हो सकते हैं, इस क्षेत्र में सहायक ढांचे और ज्ञान को देखते हुए। विभिन्न विक्रेता खुले स्रोत के रूप में भी अपने उत्पादों की सीमित या "हल्का" व्याख्या प्रदान करते हैं।

क्लाउड-आधारित टूल - क्लाउड-आधारित उपकरण निष्कर्षण उत्पादों की वर्तमान पीढ़ी हैं। लक्ष्य ईटीएल/ईएलटी प्रक्रिया के एक तत्व के रूप में डेटा के रीयल-टाइम निष्कर्षण पर है और क्लाउड-आधारित टूल इस स्थान में उत्कृष्टता प्राप्त करते हैं, डेटा भंडारण और विश्लेषण के लिए समर्थन के लिए सभी क्लाउड का लाभ उठाते हैं। ये उपकरण समस्या को सुरक्षा और समझौते से भी बाहर निकालते हैं क्योंकि आज के क्लाउड विक्रेता इन क्षेत्रों को लक्षित करने के लिए लगातार बने हुए हैं, इस विशेषज्ञता को घर में बनाने की आवश्यकता को समाप्त कर रहे हैं।


  1. डेटा सेंटर क्या है?

    एक डेटा केंद्र, जिसे कभी-कभी डेटासेंटर . के रूप में लिखा जाता है (एक शब्द), एक ऐसी सुविधा को दिया गया नाम है जिसमें बड़ी संख्या में कंप्यूटर सर्वर और संबंधित उपकरण होते हैं। एक डेटा सेंटर को कंप्यूटर रूम के रूप में सोचें जो इसकी दीवारों को बढ़ा देता है। वे किसी भी तरह का डेटा स्टोर कर सकते हैं, चाह

  1. STREAM क्या है?

    STREAM एक व्यक्तिगत-पास, निरंतर तत्व सन्निकटन एल्गोरिथ्म है जो k- माध्यिका समस्या के लिए तैयार किया गया था। k-माध्यमों की समस्या N डेटा बिंदुओं को k समूहों या समूहों में क्लस्टर करना है जैसे कि बिंदुओं और क्लस्टर केंद्र के बीच योग चुकता त्रुटि (SSQ) जिसे उन्हें सौंपा गया है, कम से कम है। विचार एक ही

  1. सीरियलाइजेशन क्या है?

    हाल ही में एक प्रोजेक्ट अपडेट मीटिंग के दौरान, मेरी टीम ने इस बारे में बात की कि हम इस एप्लिकेशन से डेटा को आगे और पीछे भेजने के लिए क्रमांकन का उपयोग कैसे करने जा रहे हैं। एक इंजीनियर जो सॉफ्टवेयर परियोजनाओं में और अधिक काम करना चाह रहा था, उसने मुझे बताया कि वे इस शब्द से अपरिचित थे। इस तरह की