ETL का मतलब एक्सट्रैक्ट, ट्रांसफॉर्म और लोड है। यह वह प्रक्रिया है जो डेटा-संचालित संगठन कई स्रोतों से डेटा एकत्र करने के लिए उपयोग करते हैं और फिर इसे खोज, रिपोर्टिंग, विश्लेषण और निर्णय लेने में सहायता के लिए एक साथ लाते हैं।
डेटा स्रोत प्रकार, प्रारूप, मात्रा और विश्वसनीयता में भिन्न हो सकते हैं, इसलिए एक साथ वितरित होने पर सहायक होने के लिए संसाधित होने के लिए आवश्यक डेटा। उद्देश्यों और तकनीकी निष्पादन के आधार पर लक्ष्य डेटा स्टोर डेटाबेस, डेटा वेयरहाउस या डेटा लेक हो सकते हैं। ETL के निम्नलिखित चरण हैं जो इस प्रकार हैं -
निकालें - निष्कर्षण के दौरान, ईटीएल डेटा को पहचानता है और इसे अपने स्रोतों से डुप्लिकेट करता है, इसलिए यह डेटा को लक्ष्य डेटास्टोर में ले जा सकता है। डेटा संरचित और असंरचित स्रोतों से प्रकट हो सकता है, जिसमें फ़ाइलें, ईमेल, व्यावसायिक सॉफ़्टवेयर, डेटाबेस, उपकरण, सेंसर, तृतीय पक्ष आदि शामिल हैं।
निष्कर्षण करने के विभिन्न तरीके हैं जैसे कि
आंशिक निष्कर्षण − सूचना तक पहुंचने का सबसे आसान तरीका यह है कि अगर किसी रिकॉर्ड को संशोधित किए जाने पर स्रोत सिस्टम हमें सूचित करता है।
आंशिक निष्कर्षण (अपडेट अधिसूचना के साथ) - ऐसा नहीं है कि अपडेट होने की स्थिति में सभी सिस्टम एक घोषणा प्रदान कर सकते हैं; लेकिन, वे उन अभिलेखों को चिह्नित कर सकते हैं जिन्हें रूपांतरित किया गया है और ऐसे अभिलेखों के उद्धरण का समर्थन करते हैं।
पूर्ण उद्धरण - कुछ सिस्टम यह नहीं पहचान सकते हैं कि कौन सा डेटा बिल्कुल बदल दिया गया है। इस मामले में, सिस्टम से रिकॉर्ड निकालने के लिए एक पूर्ण अर्क ही एकमात्र व्यवहार्यता है। इस दृष्टिकोण के लिए उसी प्रारूप में अंतिम उद्धरण की एक प्रति होने की आवश्यकता है ताकि यह बनाए गए परिवर्तनों की पहचान कर सके।
रूपांतरित करें - दूसरे चरण में स्रोतों से निकाली गई कच्ची जानकारी को एक प्रारूप में बदलना शामिल है जिसका उपयोग कई अनुप्रयोगों द्वारा किया जा सकता है। इस चरण में, डेटा ने एक निश्चित स्कीमा प्रदान करते हुए, शुद्ध, मैप और रूपांतरित किया है, इसलिए यह परिचालन आवश्यकताओं को ढूंढता है।
इस प्रक्रिया में कई प्रकार के परिवर्तन की आवश्यकता होती है जो डेटा की गुणवत्ता और अखंडता प्रदान करते हैं। डेटा को आम तौर पर लक्ष्य डेटा स्रोत में ठीक से लोड नहीं किया जाता है, लेकिन वैकल्पिक रूप से, इसे स्टेजिंग डेटाबेस में अपलोड करना अक्सर होता है।
योजना के अनुसार कुछ नहीं होने की स्थिति में यह कदम एक त्वरित रोलबैक सुनिश्चित करता है। इस चरण के दौरान, यह नियामक अनुपालन के लिए ऑडिट दस्तावेज़ बना सकता है, या कुछ डेटा समस्याओं का निदान और मरम्मत कर सकता है।
लोड करें - ईटीएल रूपांतरित जानकारी को लक्ष्य डेटास्टोर में ले जाता है। इस चरण के लिए सभी स्रोत जानकारी की मूल लोडिंग की आवश्यकता हो सकती है, या यह स्रोत जानकारी में वृद्धिशील परिवर्तनों की लोडिंग हो सकती है। यह डेटा को रीयल-टाइम या शेड्यूल किए गए बैचों में लोड कर सकता है।