डेटा लेक क्या हैं, और आपको इसकी परवाह क्यों करनी चाहिए

हाल के वर्षों में, डेटा लेक्स प्रौद्योगिकी के वरदानों से डेटा विज्ञान के प्रमुख समुद्र तट अचल संपत्ति में स्थानांतरित हो गए हैं। ऐसा क्यों हो रहा है, और ये महत्वपूर्ण क्यों हैं? संक्षिप्त उत्तर ... वहाँ मूल्य है।

डेटा का मान है

तेजी से, यह स्पष्ट है कि कंपनी के डेटा में बहुत बड़ा संभावित मूल्य है। Google, Facebook, और अन्य जैसे इंटरनेट दिग्गजों में से कई, उनका मूल्य काफी हद तक उनके डेटा से प्राप्त होता है। लेकिन आपको अपने डेटा से मूल्य प्राप्त करने के लिए इंटरनेट की दिग्गज कंपनी होने की आवश्यकता नहीं है। डेटा का उपयोग औद्योगिक कंपनियों द्वारा मशीन की विफलता की भविष्यवाणी करने के लिए, वित्तीय संस्थानों द्वारा जोखिम को बेहतर ढंग से प्रबंधित करने के लिए, ऑनलाइन खुदरा विक्रेताओं द्वारा ग्राहक प्रतिधारण बढ़ाने के लिए, और अनगिनत अन्य संस्थानों द्वारा नई अंतर्दृष्टि खोजने के लिए किया जा रहा है। यह काफी सरल सूत्र की तरह लगता है:डेटा को बिजनेस एनालिटिक्स टूल या मशीन लर्निंग (एमएल) सिस्टम में फीड करें और अंतर्दृष्टि प्राप्त करें। हकीकत में, यह इतना आसान नहीं है। विश्लेषण समस्या से निपटने से पहले हमें एक आवश्यक शर्त को पूरा करना चाहिए। हमारे पास वास्तव में वह डेटा होना चाहिए जिसमें अंतर्दृष्टि हो।

क्या यह केवल एक और डेटा वेयरहाउस समाधान नहीं है?

आप सोच रहे होंगे, "क्या यह समस्या डेटा वेयरहाउस हल नहीं है?" वास्तव में नहीं। डेटा वेयरहाउस व्यावसायिक समस्याओं के एक परिभाषित सेट को हल करने के लिए बनाए गए हैं। डेटावेयरहाउस डेटा अंतर्ग्रहण एक्स्ट्रेक्ट, ट्रांसफ़ॉर्म, लोड (ETL) वर्कफ़्लो का उपयोग करता है। डेटा को स्रोत सिस्टम से निकाला जाता है, डेटा वेयरहाउस की संरचना में बदल दिया जाता है, और फिर डेटा वेयरहाउस में लोड किया जाता है। इस समय तक, डेटा को पहले से ही संरचित, फ़िल्टर किया गया है, और अन्यथा डेटा को बाहर करने के लिए हेरफेर किया गया है जो परिभाषित व्यावसायिक समस्या सेट से संबंधित नहीं है। ईटीएल प्रक्रिया में, हमने या तो निहित या स्पष्ट रूप से, कुछ डेटा मानों को रखा है और दूसरों को त्याग दिया है, डेटा को बढ़ाया है, डेटा आइटम के बीच संबंध बनाए हैं, और दूसरों की अवहेलना की है। क्या होगा यदि एक नई व्यावसायिक समस्या की खोज की जाती है जिसके लिए छोड़ी गई जानकारी की आवश्यकता होती है? व्यावसायिक वातावरण हमेशा बदलते रहते हैं, और भविष्य की समस्याओं का अनुमान नहीं लगाया जा सकता है। वर्तमान व्यावसायिक समस्या सेट के लिए ईटीएल प्रक्रिया कितनी भी सही क्यों न हो, भविष्य के संभावित मूल्य की एक बड़ी मात्रा में किया जा रहा है डेटा वेयरहाउस को पॉप्युलेट करते समय ये निर्णय लेने से हार गए।

डेटा लेक्स दर्ज करें

जितना संभव हो उतना संभावित मूल्य बनाए रखने के लिए, हम मूल डेटा को त्याग नहीं सकते हैं। हम सभी डेटा को उसके कच्चे प्रारूप में क्यों नहीं रखते हैं और यह तय करते हैं कि बाद में इसका उपयोग कैसे किया जाए? हम "डेटा" की "झील" बनाते हुए, डेटा को नदियों की तरह एक केंद्रीय भंडार में प्रवाहित कर सकते हैं। :) एक और तरीका रखो, डेटा को निकालें और संग्रहीत करें, फिर इसे आवश्यकतानुसार बदलें और लोड करें (जिसे अक्सर एक्सट्रैक्ट, लोड और ट्रांसफॉर्म कहा जाता है, ईएलटी - ईटीएल में 'टी' और 'एल' को ट्रांसपोज़ करना)।

ऐतिहासिक रूप से, किसी भविष्य की तारीख में भंडारण की लागत और सार्थक संरचना निकालने की लागत उस जानकारी के संभावित मूल्य से कहीं अधिक है जो इसमें शामिल हो सकती है। हालांकि, भंडारण की लागत और अराजकता से उपयोगी संरचना को दूर करने की लागत कम हो गई है, जिससे इसे और अधिक के लिए तेजी से किफायती बना दिया गया है। ऐसा करने के लिए और कंपनियां।

कच्चे डेटा का कोई भी संग्रह डेटा लेक है, है ना?

ठीक है, काफी सरल। बस सभी कच्चे डेटा को एक ही स्थान पर डंप करें, और ठीक हो गया, है ना? से बहुत दूर! भविष्य के डेटा वैज्ञानिकों और विश्लेषकों के लिए इसे उपलब्ध कराते समय ग्राहकों, कंपनियों और डेटा की सुरक्षा के लिए डेटा अंतर्ग्रहण ठीक से किया जाना चाहिए। ऐसा करने के लिए, हमें कई महत्वपूर्ण कारकों पर विचार करना चाहिए।

भविष्य के डेटा वैज्ञानिक और विश्लेषक जो खोज रहे हैं उसे कैसे पाएंगे?कच्चे डेटा को अनुक्रमित किया जाना चाहिए।
डेटा को कुशल तरीके से कैसे निकाला जा सकता है? डेटा को एक कुशल फ़ाइल स्वरूप में संग्रहित किया जाना चाहिए, जैसे स्तंभ प्रारूप।
व्यक्तिगत रूप से पहचान योग्य जानकारी (पीआईआई), संरक्षित स्वास्थ्य सूचना (पीएचआई), कार्डधारक डेटा (सीडी), और अन्य संवेदनशील डेटा के बारे में क्या? डेटाओबफुसेशन की आवश्यकता है।
आप डेटा गोपनीयता (जैसे, GDPR), डेटा संप्रभुता और नियंत्रण एक्सेस को कैसे संभालेंगे ताकि आप किसी अन्य डेटा उल्लंघन के लिए सुर्खियों में न हों? उपयुक्त अनुमतियों और अभिगम नियंत्रणों को लागू करने के लिए पहचान और पहुंच प्रबंधन को लागू किया जाना चाहिए।

डुप्लीकेशन या मिलान रिकॉर्ड के बारे में क्या है जो कुछ पहचान कुंजी साझा नहीं करते हैं? 123 मेन सेंट, सम टाउन, यूएसए . है वही स्थान 123 मेन स्ट्रीट,सम टाउन, यूएसए ? रॉबर्ट स्मिथ के बारे में क्या? और बॉब स्मिथ ? जैसा कि आप कल्पना कर सकते हैं, ये सरल परिदृश्य हैं। वास्तविक डेटा सेट में बहुत अधिक जटिल स्थितियां मौजूद हैं।

एक बार जब डेटा डेटा लेक में होता है और उसके पास उचित अनुक्रमण और नियंत्रण होता है, तो इसका उपयोग करने से पहले इसे एक संरचित प्रारूप में परिवर्तित करने की आवश्यकता होती है। आमतौर पर, इसका मतलब है कि इसे पढ़े जाने पर जस्ट-इन-टाइम स्कीमा लागू करना। विभिन्न कच्चे स्रोत स्वरूपों को एक ज्ञात संरचना में प्रक्षेपित किया जाता है ताकि उन्हें एमएल, वेयरहाउसिंग या बिजनेस इंटेलिजेंस (बीआई) सिस्टम द्वारा उपभोग किया जा सके। (मैं इस प्रक्रिया को ईटीएस-टीएल, एक्सट्रैक्ट ट्रांसफॉर्म स्टोर - ट्रांसफॉर्म और लोड कहना पसंद करता हूं, क्योंकि डेटा के झील में प्रवेश करते ही कुछ दोषरहित डेटा ट्रांसफ़ॉर्मेशन किया जाता है। लेकिन नामकरण की चर्चा एक और समय के लिए एक विषय है।)

डेटा का उपयोग करना

डेटा अब झील में है लेकिन इसका वर्तमान स्वरूप में उपयोग नहीं किया जा सकता है। डेटा ट्रांसफॉर्मेशन निर्णय जो विलंबित थे, उन्हें अब तय किया जाना चाहिए। एक बार जब एक स्कीमा तय हो जाती है और डेटा निकाला जाता है, तो इसे एक स्कीमा-विशिष्ट तरीके से साफ किया जाना चाहिए। एक स्कीमा/विश्लेषण के लिए अमान्य डेटा दूसरे के लिए पूरी तरह से मान्य हो सकता है। उदाहरण के लिए, एक भूमि स्वामित्व डेटासेट पर विचार करें जिसमें मालिक का नाम, संपत्ति का पता, संपत्ति मूल्य, भुगतान अपराध, भूमि उपयोग (जैसे, आवासीय, कार्यालय भवन, या औद्योगिक) शामिल हो। और संपत्ति कर खाता संख्या। यह निर्धारित करना कि भूमि उपयोग और भुगतान अपराध के बीच कोई संबंध है या नहीं, मालिक के नाम की आवश्यकता नहीं है। साथ ही, संपत्ति के मूल्यों और भूमि उपयोग के बीच संबंध की तलाश के लिए अपराध डेटा की आवश्यकता नहीं होती है। यदि एक डेटा स्लाइस में एक पंक्ति से डेटा आइटम गायब है, तो यह अन्य डेटा स्लाइस के लिए उसी पंक्ति को अमान्य नहीं करता है। डेटा लेक आपको अपने डेटा एनालिटिक्स विकल्पों को खुला रखने देता है, लेकिन वे अपनी जटिलताओं और लागतों के साथ आते हैं।

एक बार जब ये सभी चरण पूरे हो जाते हैं, तो हम उस बिंदु पर पहुंच जाते हैं जहां हमारे डेटा एनालिटिक्स टूल, बीआई सिस्टम या एमएल मॉडल अपना काम शुरू कर सकते हैं। हालांकि, अडेटा झील का लाभ उठाकर, हमने अनजाने में डेटा में पाए जाने वाले संभावित भविष्य के मूल्य को नष्ट नहीं किया है। हमें भविष्य जानने की आवश्यकता के बिना भविष्य के व्यावसायिक प्रश्नों का पता लगाया जा सकता है।

सारांश

जबकि डेटा वेयरहाउस फ़िल्टर, तैयार और उपयोग के लिए तैयार होते हैं, डेटा झील जलाशय होते हैं, उनके कच्चे रूपों में उपभोग करने का इरादा नहीं होता है। इसके बजाय, डेटाइन का उपभोग करने से पहले उन्हें तैयार किया जाना चाहिए। किसी भी जलाशय की तरह, भविष्य में उपभोग के लिए उन्हें उपलब्ध रखने के लिए उन्हें ठीक से प्रबंधित किया जाना चाहिए। यह अंतर्वाह (भंडारण फ़ाइल स्वरूपों और डेटा अस्पष्टता) के प्रबंधन के माध्यम से किया जाता है, सामग्री (अनुक्रमण और डुप्लीकेशन) को समझना, दुरुपयोग (पहचान और पहुंच प्रबंधन), और शुद्धिकरण सुविधाओं (डेटा निष्कर्षण, स्कीमा के आवेदन, और डेटा सफाई) से सुरक्षित करना।

द टिप ऑफ़ द आइसबर्ग

सौभाग्य से, क्लाउड युग में, हमें डेटा लेक को लागू करने के लिए अपने स्वयं के टूल और तकनीकों को रोल करने की आवश्यकता नहीं है। उदाहरण के लिए, एडब्ल्यूएस लेक फॉर्मेशन सीधे डेटा लेक से जुड़े टूल और प्रौद्योगिकी मुद्दों को संबोधित करता है। हालांकि अभी कई कठिन सवाल बाकी हैं। क्या आप जानते हैं कि इन उपकरणों का सही उपयोग कैसे किया जाता है? क्या आपके पास अपने डेटा की अनुमति देने के लिए उचित नेटवर्क कनेक्टिविटी स्थापित करने की विशेषज्ञता है? क्या एक वीपीएन पर्याप्त है, या क्या आपको एक समर्पित सर्किट (डायरेक्ट कनेक्ट) की आवश्यकता है? आप कंपनी डेटा की सोने की खान क्लाउड में डाल रहे हैं। क्या आप सुनिश्चित हैं कि आपने अनधिकृत पहुंच को रोकने के लिए इसे ठीक से सुरक्षित किया है? क्या आप डेटा को किफ़ायती तरीके से एक्सेस कर रहे हैं? याद रखें, स्थानांतरण करना मुफ़्त नहीं है।

रैकस्पेस में, हमारे पास क्लाउड आर्किटेक्ट्स और विशेषज्ञता है जो आपके डेटा को तेजी से, सुरक्षित और कुशलता से चलाने और चलाने में आपकी मदद करती है। अधिक जानकारी के लिए रैकस्पेस मैनेज्ड एडब्ल्यूएस पर हमें कॉल करें।

कोई टिप्पणी करने या प्रश्न पूछने के लिए प्रतिक्रिया टैब का उपयोग करें।