हर कोई बिग डेटा को 3 या 4 या 10 बनाम के सेट के साथ परिभाषित करता है। क्या ये वी वास्तव में हमें बिग डेटा अवधारणा की परिभाषा दे रहे हैं या यह कुछ और है जो वे हमें बताने की कोशिश कर रहे हैं? इस वी-आधारित लक्षण वर्णन का उपयोग करने का मुख्य कारण इस बिग डेटा के साथ आने वाली चुनौतियों को उजागर करना है। चुनौतियाँ जैसे - कैप्चरिंग, क्लीनिंग, क्यूरेशन, इंटीग्रेशन, स्टोरेज, प्रोसेसिंग और भी बहुत कुछ।
ये V संभावित चुनौतियों के लिए खुद को तैयार करने के लिए दिशा-निर्देश दे रहे हैं। जब आप अपने बड़े डेटा को प्रबंधित करना शुरू करेंगे तो आपके सामने आने वाली चुनौतियाँ:
- बड़ी मात्रा में वृद्धि
- तेजी से बढ़ता है
- बड़ी किस्में उत्पन्न करता है
- बड़ी परिवर्तनशीलता के साथ परिवर्तन
- बड़ी सत्यता बनाए रखने के लिए प्रक्रिया की आवश्यकता है
- बदलने पर बड़ा विज़ुअलाइज़ेशन मिलता है
- बड़े छिपे हुए मूल्य हैं ओल>
- दिन के समय या सप्ताह के दिन का खरीदारी व्यवहार पर क्या प्रभाव पड़ता है?
- क्या Twitter या Facebook में उछाल खरीदारी में वृद्धि या कमी का संकेत देता है?
- भौगोलिक स्थान, उत्पाद की उपलब्धता, दिन का समय, खरीदारी का इतिहास, उम्र, परिवार का आकार, क्रेडिट सीमा, और वाहन का प्रकार सभी एक साथ मिलकर उपभोक्ता की खरीदने की प्रवृत्ति का अनुमान कैसे लगाते हैं? ओल>
ये V बड़े डेटा के महत्वपूर्ण पहलुओं और एक बड़ी डेटा रणनीति की व्याख्या करते हैं जिसे संगठन अनदेखा नहीं कर सकता। आइए बिग डेटा की विभिन्न विशेषताओं में सभी V के योगदान को देखें:
1. वॉल्यूम:
Facebook पर प्रतिदिन 100 टेराबाइट डेटा अपलोड किया जाता है; अकामाई ऑनलाइन विज्ञापनों को लक्षित करने के लिए एक दिन में 7.5 करोड़ घटनाओं का विश्लेषण करती है; वॉलमार्ट हर एक घंटे में 10 लाख ग्राहक लेनदेन करता है। अब तक बनाए गए सभी डेटा का 90% पिछले 2 वर्षों में उत्पन्न हुआ था।
उपरोक्त आंकड़े वास्तव में दर्शाते हैं कि जब हम बड़ी मात्रा में डेटा कहते हैं तो इसका क्या अर्थ होता है। यह डेटा की पहली विशेषता है जो इसे एक बड़ा डेटा बनाती है। बदले में डेटा की यह विशाल मात्रा हमारे लिए इस डेटा को संग्रहीत करने की चुनौती बन जाती है।
<एच3>2. वेग:1n 1999, हर दिन हर मिनट, हम YouTube पर 100 घंटे के वीडियो अपलोड करते हैं, 200 मिलियन से अधिक ईमेल भेजे जाते हैं और 300,000 ट्वीट भेजे जाते हैं।
वॉल्यूम संख्याओं को अंतर्निहित करना और भी बड़ा चलन है, जो यह है कि मौजूदा डेटा का 90% केवल पिछले दो वर्षों में बनाया गया है। यह उस वेग या गति को दर्शाता है जिस पर डेटा बनाया जा रहा है, संग्रहीत, विश्लेषण और विज़ुअलाइज़ किया जा रहा है।
संगठनों के सामने डेटा के निर्माण और वास्तविक समय में उपयोग की जाने वाली जबरदस्त गति से निपटने की चुनौती है।
<एच3>3. किस्मपहले जो भी डेटा बनाया जाता था, वह स्ट्रक्चर्ड डेटा होता था, इसे बड़े करीने से कॉलम और रो में फिट किया जाता था, लेकिन वे दिन अब खत्म हो चुके हैं। आज जनरेट किया गया 90% डेटा असंरचित है, जो सभी आकार और रूपों में आ रहा है - भू-स्थानिक डेटा से लेकर ट्वीट तक, जिसका सामग्री और भावना के लिए विश्लेषण किया जा सकता है, डेटा को फ़ोटो और वीडियो के रूप में देखा जा सकता है।
विविधता बड़े डेटा की सबसे बड़ी चुनौतियों में से एक का वर्णन करती है। यह असंरचित हो सकता है और इसमें XML से लेकर वीडियो से लेकर SMS तक कई अलग-अलग प्रकार के डेटा शामिल हो सकते हैं। डेटा को सार्थक तरीके से व्यवस्थित करना कोई आसान काम नहीं है, खासकर तब जब डेटा खुद तेजी से बदलता है।
<एच3>4. परिवर्तनशीलताविविधता को अक्सर विविधता समझ लिया जाता है। इसे अलग करने का एक सरल उदाहरण है:स्टारबक्स के बारे में सोचें - कोल्ड कॉफी में इसके कई स्वाद हैं। यह वैरायटी है। मान लीजिए कि आप हर दिन कैफे मोचा खरीदते हैं और इसका स्वाद और महक हर पिछले दिन से थोड़ी अलग होती है। यह परिवर्तनशीलता है।
बिग डेटा के संदर्भ में परिवर्तनशीलता कुछ भिन्न चीजों को संदर्भित करती है। एक डेटा में विसंगतियों की संख्या है। किसी भी सार्थक विश्लेषण के घटित होने के लिए इन्हें विसंगति और बाहरी पहचान विधियों द्वारा खोजा जाना चाहिए। बिग डेटा भी परिवर्तनशील होता है क्योंकि कई अलग-अलग डेटा प्रकारों और स्रोतों से उत्पन्न होने वाले डेटा आयामों की भीड़ होती है। भिन्नता उस असंगत गति को भी संदर्भित कर सकती है जिस पर आपके डेटाबेस में बड़ा डेटा लोड किया जाता है।
<एच3>5. सत्यताबिग डेटा को समझने के लिए जो महत्वपूर्ण है वह है अस्त-व्यस्त, शोरगुल वाली प्रकृति, और विश्लेषण शुरू होने से पहले एक सटीक डेटासेट तैयार करने में लगने वाले काम की मात्रा। अगर विश्लेषण किया जा रहा डेटा गलत या अधूरा है तो यह बेकार है।
यह स्थिति तब उत्पन्न होती है जब विभिन्न स्रोतों से डेटा प्रवाह उत्पन्न होता है जो अलग-अलग सिग्नल-टू-नॉइज़ अनुपात के साथ विभिन्न स्वरूप प्रस्तुत करता है। बिग डेटा एनालिटिक्स तक पहुंचने तक यह संचित त्रुटियों से भरा हो सकता है।
सत्यता यह सुनिश्चित करने के बारे में है कि डेटा सटीक है, जिसके लिए आपके सिस्टम में खराब डेटा को जमा होने से रोकने के लिए प्रक्रियाओं की आवश्यकता होती है। सबसे सरल उदाहरण वे संपर्क हैं जो आपके मार्केटिंग ऑटोमेशन सिस्टम में झूठे नामों और गलत संपर्क जानकारी के साथ प्रवेश करते हैं। आपने अपने डेटाबेस में मिकी माउस को कितनी बार देखा है? यह क्लासिक "गारबेज इन, गारबेज आउट" चैलेंज है।
<एच3>6. विज़ुअलाइज़ेशनयह बिग डेटा का कठिन हिस्सा है, जिसमें विफल होने से डेटा की इतनी बड़ी मात्रा बेकार हो जाती है। किसी भी बिग डेटा प्रोसेसिंग सिस्टम के लिए एक मुख्य कार्य इसके विशाल पैमाने को आसानी से समझ में आने वाली और कार्रवाई योग्य में बदलना है। मानव उपभोग के लिए, इसके लिए सबसे अच्छे तरीकों में से एक इसे ग्राफिकल प्रारूपों में परिवर्तित करना है।
मौजूदा बड़े डेटा विज़ुअलाइज़ेशन टूल इन-मेमोरी तकनीक की सीमाओं और खराब मापनीयता, कार्यक्षमता और प्रतिक्रिया समय के कारण तकनीकी चुनौतियों का सामना करते हैं। पारंपरिक ग्राफ़ एक अरब डेटा बिंदुओं को प्लॉट करने की आवश्यकता को पूरा नहीं कर सकते हैं, इसलिए आपको डेटा क्लस्टरिंग या ट्री मैप्स, सनबर्स्ट, समानांतर निर्देशांक, सर्कुलर नेटवर्क डायग्राम या कोन ट्री जैसे डेटा का प्रतिनिधित्व करने के विभिन्न तरीकों की आवश्यकता है।
<एच3>7. मानमूल्य अंतिम खेल है। बिग डेटा का संभावित मूल्य बहुत बड़ा है। मात्रा, वेग, विविधता, परिवर्तनशीलता, सत्यता और विज़ुअलाइज़ेशन का ध्यान रखने के बाद - जिसमें बहुत समय और प्रयास लगता है - यह सुनिश्चित करना महत्वपूर्ण है कि आपके संगठन को डेटा से मूल्य मिल रहा है।
बेशक, डेटा अपने आप में बिल्कुल भी मूल्यवान नहीं है। मूल्य उस डेटा पर किए गए विश्लेषणों में है और कैसे डेटा को सूचना में बदल दिया जाता है और अंततः इसे ज्ञान में बदल दिया जाता है।
उपरोक्त 7 वी आपको बिग डेटा के 3 महत्वपूर्ण पहलुओं यानी परिभाषा, विशेषताओं और चुनौतियों के बारे में बताते हैं। लेकिन जब लोगों ने 7 वी की चुनौतियों का सामना करने के तरीकों का आविष्कार करने के लिए बड़े डेटा पर शोध करना शुरू किया तो वे कुछ अन्य वी के सामने आए। हालांकि वे बड़े डेटा में महत्वपूर्ण भूमिका नहीं निभाते हैं लेकिन विशेषताओं और चुनौतियों की सूची को पूरा करते हैं।
<एच3>8. वैधतासत्यता के समान, वैधता से तात्पर्य है कि डेटा अपने इच्छित उपयोग के लिए कितना सटीक और सही है। बिग डेटा सत्यता वैधता का विषय है, जिसका अर्थ है कि डेटा सही और इच्छित उपयोग के लिए सटीक है। स्पष्ट रूप से मान्य डेटा सही निर्णय लेने की कुंजी है। डेटा सत्यापन वह है जो डेटा के अदूषित संचरण को प्रमाणित करता है।
<एच3>9. व्यवहार्यताबस नीचे दिए गए कथनों पर विचार करें:
हमारा पहला काम उस डेटा की व्यवहार्यता का आकलन करना है क्योंकि एक प्रभावी भविष्य कहनेवाला मॉडल बनाने में विचार करने के लिए डेटा और चर की इतनी सारी किस्मों के साथ, हम जल्दी और लागत- पूर्ण विशेषताओं वाले मॉडल के निर्माण में निवेश करने से पहले किसी विशेष चर की प्रासंगिकता का प्रभावी ढंग से परीक्षण और पुष्टि करें। दूसरे शब्दों में, हम आगे की कार्रवाई करने से पहले उस परिकल्पना को मान्य करना चाहते हैं और एक चर की व्यवहार्यता निर्धारित करने की प्रक्रिया में, हम यह निर्धारित करने के लिए अपने दृष्टिकोण का विस्तार कर सकते हैं कि क्या अन्य चर - जो हमारी प्रारंभिक परिकल्पना का हिस्सा नहीं थे - हैं हमारे वांछित या देखे गए परिणामों पर एक सार्थक प्रभाव।
10. अस्थिरता
अप्रासंगिक, ऐतिहासिक, या अब उपयोगी नहीं माने जाने से पहले आपका डेटा कितना पुराना होना चाहिए? डेटा को कितने समय तक रखने की आवश्यकता है?
जब हम बड़े डेटा की अस्थिरता के बारे में बात करते हैं, तो हम संरचित डेटा की अवधारण नीति को आसानी से याद कर सकते हैं जिसे हम अपने व्यवसायों में हर दिन लागू करते हैं। अवधारण अवधि समाप्त होने के बाद, हम इसे आसानी से नष्ट कर सकते हैं।
बिग डेटा की गति और मात्रा के कारण, हालांकि, इसकी अस्थिरता पर सावधानी से विचार करने की आवश्यकता है। अब आपको डेटा मुद्रा और उपलब्धता के लिए नियम स्थापित करने के साथ-साथ आवश्यकता पड़ने पर जानकारी की त्वरित पुनर्प्राप्ति सुनिश्चित करने की आवश्यकता है।
11. भेद्यता
क्या आपको 2015 में एशले मैडिसन हैक याद है? या क्या आपको याद है कि मई 2016 में सीआरएन ने रिपोर्ट किया था कि "पीस नाम के एक हैकर ने बेचने के लिए डार्क वेब पर डेटा पोस्ट किया था, जिसमें कथित तौर पर 167 मिलियन लिंक्डइन खातों की जानकारी और माइस्पेस उपयोगकर्ताओं के लिए 360 मिलियन ईमेल और पासवर्ड शामिल थे।
बिग डेटा अपने साथ नई सुरक्षा चिंताएं लेकर आता है। विशेष रूप से इन विशेषताओं के साथ बिग डेटा के लिए एक सुरक्षा कार्यक्रम विकसित करना एक चुनौती बन जाता है। आखिरकार, डेटा उल्लंघन एक बड़ा उल्लंघन है।
तो यह सब हमें बिग डेटा की प्रकृति के बारे में क्या बताता है? ठीक है, यह बड़े पैमाने पर और तेजी से विस्तार कर रहा है, लेकिन यह सैकड़ों स्वरूपों में शोर, गड़बड़, लगातार बदलते हुए और विश्लेषण और विज़ुअलाइज़ेशन के बिना वस्तुतः बेकार है।
वॉल्यूम, वेग और विविधता न केवल बिग डेटा के प्रमुख पैरामीटर हैं, बल्कि वे बिग डेटा की अवधारणा को जन्म देने का कारण भी हैं और इसके बीच प्रमुख अलग-अलग विशेषताएं हैं। सामान्य डेटा और बिग डेटा। हालांकि वे स्वयं बिग डेटा के लिए आंतरिक हैं, अन्य वी की परिवर्तनशीलता, सत्यता, विज़ुअलाइज़ेशन और मूल्य महत्वपूर्ण विशेषताएँ हैं जो उस विशाल जटिलता को दर्शाती हैं जो बिग डेटा उन लोगों के लिए प्रस्तुत करता है जो इसे प्रोसेस, विश्लेषण और इससे लाभान्वित होंगे।
निर्विवाद रूप से, बिग डेटा एक प्रमुख प्रवृत्ति है जिसे कॉर्पोरेट आईटी को उचित कंप्यूटिंग इन्फ्रास्ट्रक्चर के साथ समायोजित करना चाहिए। लेकिन उच्च-प्रदर्शन विश्लेषण और डेटा वैज्ञानिकों के बिना यह सब समझने के लिए, आप केवल बड़ी लागत बनाने का जोखिम उठाते हैं, जो कि व्यावसायिक लाभ में तब्दील होने वाले मूल्य के बिना होता है।