बिग डेटा वी - बिग डेटा की विशेषताओं या चुनौतियों का प्रतिनिधित्व करता है

हर कोई बिग डेटा को 3 या 4 या 10 बनाम के सेट के साथ परिभाषित करता है। क्या ये वी वास्तव में हमें बिग डेटा अवधारणा की परिभाषा दे रहे हैं या यह कुछ और है जो वे हमें बताने की कोशिश कर रहे हैं? इस वी-आधारित लक्षण वर्णन का उपयोग करने का मुख्य कारण इस बिग डेटा के साथ आने वाली चुनौतियों को उजागर करना है। चुनौतियाँ जैसे - कैप्चरिंग, क्लीनिंग, क्यूरेशन, इंटीग्रेशन, स्टोरेज, प्रोसेसिंग और भी बहुत कुछ।

ये V संभावित चुनौतियों के लिए खुद को तैयार करने के लिए दिशा-निर्देश दे रहे हैं। जब आप अपने बड़े डेटा को प्रबंधित करना शुरू करेंगे तो आपके सामने आने वाली चुनौतियाँ:

बड़ी मात्रा में वृद्धि
तेजी से बढ़ता है
बड़ी किस्में उत्पन्न करता है
बड़ी परिवर्तनशीलता के साथ परिवर्तन
बड़ी सत्यता बनाए रखने के लिए प्रक्रिया की आवश्यकता है
बदलने पर बड़ा विज़ुअलाइज़ेशन मिलता है
बड़े छिपे हुए मूल्य हैं

ये V बड़े डेटा के महत्वपूर्ण पहलुओं और एक बड़ी डेटा रणनीति की व्याख्या करते हैं जिसे संगठन अनदेखा नहीं कर सकता। आइए बिग डेटा की विभिन्न विशेषताओं में सभी V के योगदान को देखें:

1. वॉल्यूम:

Facebook पर प्रतिदिन 100 टेराबाइट डेटा अपलोड किया जाता है; अकामाई ऑनलाइन विज्ञापनों को लक्षित करने के लिए एक दिन में 7.5 करोड़ घटनाओं का विश्लेषण करती है; वॉलमार्ट हर एक घंटे में 10 लाख ग्राहक लेनदेन करता है। अब तक बनाए गए सभी डेटा का 90% पिछले 2 वर्षों में उत्पन्न हुआ था।

उपरोक्त आंकड़े वास्तव में दर्शाते हैं कि जब हम बड़ी मात्रा में डेटा कहते हैं तो इसका क्या अर्थ होता है। यह डेटा की पहली विशेषता है जो इसे एक बड़ा डेटा बनाती है। बदले में डेटा की यह विशाल मात्रा हमारे लिए इस डेटा को संग्रहीत करने की चुनौती बन जाती है।

1n 1999, हर दिन हर मिनट, हम YouTube पर 100 घंटे के वीडियो अपलोड करते हैं, 200 मिलियन से अधिक ईमेल भेजे जाते हैं और 300,000 ट्वीट भेजे जाते हैं।

वॉल्यूम संख्याओं को अंतर्निहित करना और भी बड़ा चलन है, जो यह है कि मौजूदा डेटा का 90% केवल पिछले दो वर्षों में बनाया गया है। यह उस वेग या गति को दर्शाता है जिस पर डेटा बनाया जा रहा है, संग्रहीत, विश्लेषण और विज़ुअलाइज़ किया जा रहा है।

संगठनों के सामने डेटा के निर्माण और वास्तविक समय में उपयोग की जाने वाली जबरदस्त गति से निपटने की चुनौती है।

पहले जो भी डेटा बनाया जाता था, वह स्ट्रक्चर्ड डेटा होता था, इसे बड़े करीने से कॉलम और रो में फिट किया जाता था, लेकिन वे दिन अब खत्म हो चुके हैं। आज जनरेट किया गया 90% डेटा असंरचित है, जो सभी आकार और रूपों में आ रहा है - भू-स्थानिक डेटा से लेकर ट्वीट तक, जिसका सामग्री और भावना के लिए विश्लेषण किया जा सकता है, डेटा को फ़ोटो और वीडियो के रूप में देखा जा सकता है।

विविधता बड़े डेटा की सबसे बड़ी चुनौतियों में से एक का वर्णन करती है। यह असंरचित हो सकता है और इसमें XML से लेकर वीडियो से लेकर SMS तक कई अलग-अलग प्रकार के डेटा शामिल हो सकते हैं। डेटा को सार्थक तरीके से व्यवस्थित करना कोई आसान काम नहीं है, खासकर तब जब डेटा खुद तेजी से बदलता है।

विविधता को अक्सर विविधता समझ लिया जाता है। इसे अलग करने का एक सरल उदाहरण है:स्टारबक्स के बारे में सोचें - कोल्ड कॉफी में इसके कई स्वाद हैं। यह वैरायटी है। मान लीजिए कि आप हर दिन कैफे मोचा खरीदते हैं और इसका स्वाद और महक हर पिछले दिन से थोड़ी अलग होती है। यह परिवर्तनशीलता है।

बिग डेटा के संदर्भ में परिवर्तनशीलता कुछ भिन्न चीजों को संदर्भित करती है। एक डेटा में विसंगतियों की संख्या है। किसी भी सार्थक विश्लेषण के घटित होने के लिए इन्हें विसंगति और बाहरी पहचान विधियों द्वारा खोजा जाना चाहिए। बिग डेटा भी परिवर्तनशील होता है क्योंकि कई अलग-अलग डेटा प्रकारों और स्रोतों से उत्पन्न होने वाले डेटा आयामों की भीड़ होती है। भिन्नता उस असंगत गति को भी संदर्भित कर सकती है जिस पर आपके डेटाबेस में बड़ा डेटा लोड किया जाता है।

बिग डेटा को समझने के लिए जो महत्वपूर्ण है वह है अस्त-व्यस्त, शोरगुल वाली प्रकृति, और विश्लेषण शुरू होने से पहले एक सटीक डेटासेट तैयार करने में लगने वाले काम की मात्रा। अगर विश्लेषण किया जा रहा डेटा गलत या अधूरा है तो यह बेकार है।

यह स्थिति तब उत्पन्न होती है जब विभिन्न स्रोतों से डेटा प्रवाह उत्पन्न होता है जो अलग-अलग सिग्नल-टू-नॉइज़ अनुपात के साथ विभिन्न स्वरूप प्रस्तुत करता है। बिग डेटा एनालिटिक्स तक पहुंचने तक यह संचित त्रुटियों से भरा हो सकता है।

सत्यता यह सुनिश्चित करने के बारे में है कि डेटा सटीक है, जिसके लिए आपके सिस्टम में खराब डेटा को जमा होने से रोकने के लिए प्रक्रियाओं की आवश्यकता होती है। सबसे सरल उदाहरण वे संपर्क हैं जो आपके मार्केटिंग ऑटोमेशन सिस्टम में झूठे नामों और गलत संपर्क जानकारी के साथ प्रवेश करते हैं। आपने अपने डेटाबेस में मिकी माउस को कितनी बार देखा है? यह क्लासिक "गारबेज इन, गारबेज आउट" चैलेंज है।

यह बिग डेटा का कठिन हिस्सा है, जिसमें विफल होने से डेटा की इतनी बड़ी मात्रा बेकार हो जाती है। किसी भी बिग डेटा प्रोसेसिंग सिस्टम के लिए एक मुख्य कार्य इसके विशाल पैमाने को आसानी से समझ में आने वाली और कार्रवाई योग्य में बदलना है। मानव उपभोग के लिए, इसके लिए सबसे अच्छे तरीकों में से एक इसे ग्राफिकल प्रारूपों में परिवर्तित करना है।

मौजूदा बड़े डेटा विज़ुअलाइज़ेशन टूल इन-मेमोरी तकनीक की सीमाओं और खराब मापनीयता, कार्यक्षमता और प्रतिक्रिया समय के कारण तकनीकी चुनौतियों का सामना करते हैं। पारंपरिक ग्राफ़ एक अरब डेटा बिंदुओं को प्लॉट करने की आवश्यकता को पूरा नहीं कर सकते हैं, इसलिए आपको डेटा क्लस्टरिंग या ट्री मैप्स, सनबर्स्ट, समानांतर निर्देशांक, सर्कुलर नेटवर्क डायग्राम या कोन ट्री जैसे डेटा का प्रतिनिधित्व करने के विभिन्न तरीकों की आवश्यकता है।

मूल्य अंतिम खेल है। बिग डेटा का संभावित मूल्य बहुत बड़ा है। मात्रा, वेग, विविधता, परिवर्तनशीलता, सत्यता और विज़ुअलाइज़ेशन का ध्यान रखने के बाद - जिसमें बहुत समय और प्रयास लगता है - यह सुनिश्चित करना महत्वपूर्ण है कि आपके संगठन को डेटा से मूल्य मिल रहा है।

बेशक, डेटा अपने आप में बिल्कुल भी मूल्यवान नहीं है। मूल्य उस डेटा पर किए गए विश्लेषणों में है और कैसे डेटा को सूचना में बदल दिया जाता है और अंततः इसे ज्ञान में बदल दिया जाता है।

उपरोक्त 7 वी आपको बिग डेटा के 3 महत्वपूर्ण पहलुओं यानी परिभाषा, विशेषताओं और चुनौतियों के बारे में बताते हैं। लेकिन जब लोगों ने 7 वी की चुनौतियों का सामना करने के तरीकों का आविष्कार करने के लिए बड़े डेटा पर शोध करना शुरू किया तो वे कुछ अन्य वी के सामने आए। हालांकि वे बड़े डेटा में महत्वपूर्ण भूमिका नहीं निभाते हैं लेकिन विशेषताओं और चुनौतियों की सूची को पूरा करते हैं।

सत्यता के समान, वैधता से तात्पर्य है कि डेटा अपने इच्छित उपयोग के लिए कितना सटीक और सही है। बिग डेटा सत्यता वैधता का विषय है, जिसका अर्थ है कि डेटा सही और इच्छित उपयोग के लिए सटीक है। स्पष्ट रूप से मान्य डेटा सही निर्णय लेने की कुंजी है। डेटा सत्यापन वह है जो डेटा के अदूषित संचरण को प्रमाणित करता है।

बस नीचे दिए गए कथनों पर विचार करें:

दिन के समय या सप्ताह के दिन का खरीदारी व्यवहार पर क्या प्रभाव पड़ता है?
क्या Twitter या Facebook में उछाल खरीदारी में वृद्धि या कमी का संकेत देता है?
भौगोलिक स्थान, उत्पाद की उपलब्धता, दिन का समय, खरीदारी का इतिहास, उम्र, परिवार का आकार, क्रेडिट सीमा, और वाहन का प्रकार सभी एक साथ मिलकर उपभोक्ता की खरीदने की प्रवृत्ति का अनुमान कैसे लगाते हैं?

हमारा पहला काम उस डेटा की व्यवहार्यता का आकलन करना है क्योंकि एक प्रभावी भविष्य कहनेवाला मॉडल बनाने में विचार करने के लिए डेटा और चर की इतनी सारी किस्मों के साथ, हम जल्दी और लागत- पूर्ण विशेषताओं वाले मॉडल के निर्माण में निवेश करने से पहले किसी विशेष चर की प्रासंगिकता का प्रभावी ढंग से परीक्षण और पुष्टि करें। दूसरे शब्दों में, हम आगे की कार्रवाई करने से पहले उस परिकल्पना को मान्य करना चाहते हैं और एक चर की व्यवहार्यता निर्धारित करने की प्रक्रिया में, हम यह निर्धारित करने के लिए अपने दृष्टिकोण का विस्तार कर सकते हैं कि क्या अन्य चर - जो हमारी प्रारंभिक परिकल्पना का हिस्सा नहीं थे - हैं हमारे वांछित या देखे गए परिणामों पर एक सार्थक प्रभाव।

10. अस्थिरता

अप्रासंगिक, ऐतिहासिक, या अब उपयोगी नहीं माने जाने से पहले आपका डेटा कितना पुराना होना चाहिए? डेटा को कितने समय तक रखने की आवश्यकता है?

जब हम बड़े डेटा की अस्थिरता के बारे में बात करते हैं, तो हम संरचित डेटा की अवधारण नीति को आसानी से याद कर सकते हैं जिसे हम अपने व्यवसायों में हर दिन लागू करते हैं। अवधारण अवधि समाप्त होने के बाद, हम इसे आसानी से नष्ट कर सकते हैं।

बिग डेटा की गति और मात्रा के कारण, हालांकि, इसकी अस्थिरता पर सावधानी से विचार करने की आवश्यकता है। अब आपको डेटा मुद्रा और उपलब्धता के लिए नियम स्थापित करने के साथ-साथ आवश्यकता पड़ने पर जानकारी की त्वरित पुनर्प्राप्ति सुनिश्चित करने की आवश्यकता है।

11. भेद्यता

क्या आपको 2015 में एशले मैडिसन हैक याद है? या क्या आपको याद है कि मई 2016 में सीआरएन ने रिपोर्ट किया था कि "पीस नाम के एक हैकर ने बेचने के लिए डार्क वेब पर डेटा पोस्ट किया था, जिसमें कथित तौर पर 167 मिलियन लिंक्डइन खातों की जानकारी और माइस्पेस उपयोगकर्ताओं के लिए 360 मिलियन ईमेल और पासवर्ड शामिल थे।

बिग डेटा अपने साथ नई सुरक्षा चिंताएं लेकर आता है। विशेष रूप से इन विशेषताओं के साथ बिग डेटा के लिए एक सुरक्षा कार्यक्रम विकसित करना एक चुनौती बन जाता है। आखिरकार, डेटा उल्लंघन एक बड़ा उल्लंघन है।

तो यह सब हमें बिग डेटा की प्रकृति के बारे में क्या बताता है? ठीक है, यह बड़े पैमाने पर और तेजी से विस्तार कर रहा है, लेकिन यह सैकड़ों स्वरूपों में शोर, गड़बड़, लगातार बदलते हुए और विश्लेषण और विज़ुअलाइज़ेशन के बिना वस्तुतः बेकार है।

वॉल्यूम, वेग और विविधता न केवल बिग डेटा के प्रमुख पैरामीटर हैं, बल्कि वे बिग डेटा की अवधारणा को जन्म देने का कारण भी हैं और इसके बीच प्रमुख अलग-अलग विशेषताएं हैं। सामान्य डेटा और बिग डेटा। हालांकि वे स्वयं बिग डेटा के लिए आंतरिक हैं, अन्य वी की परिवर्तनशीलता, सत्यता, विज़ुअलाइज़ेशन और मूल्य महत्वपूर्ण विशेषताएँ हैं जो उस विशाल जटिलता को दर्शाती हैं जो बिग डेटा उन लोगों के लिए प्रस्तुत करता है जो इसे प्रोसेस, विश्लेषण और इससे लाभान्वित होंगे।

निर्विवाद रूप से, बिग डेटा एक प्रमुख प्रवृत्ति है जिसे कॉर्पोरेट आईटी को उचित कंप्यूटिंग इन्फ्रास्ट्रक्चर के साथ समायोजित करना चाहिए। लेकिन उच्च-प्रदर्शन विश्लेषण और डेटा वैज्ञानिकों के बिना यह सब समझने के लिए, आप केवल बड़ी लागत बनाने का जोखिम उठाते हैं, जो कि व्यावसायिक लाभ में तब्दील होने वाले मूल्य के बिना होता है।