बिग डेटा में क्या गलत हो सकता है?

बिग डेटा, मशीन लर्निंग और एल्गोरिथम के मूल में, उच्च मांग और शानदार सुविधाओं के कारण वर्तमान में चरम पर है। बिग डेटा एनालिटिक्स सॉल्यूशन हासिल करने के लिए कई कंपनियां इस क्षेत्र में विशेषज्ञता की मांग कर रही हैं। बिग डेटा की संस्कृति वर्तमान में दुनिया पर हावी हो रही है और एक मानक स्थापित करने में कामयाब रही है क्योंकि कंपनियां भविष्यवाणी मॉडल और सांख्यिकीय विश्लेषण के आधार पर व्यावसायिक खुफिया जानकारी प्राप्त करने का प्रयास करती हैं।

जैसा कि डेटा एक घातीय दर पर उत्पन्न हो रहा है, बिग डेटा, IoT और क्लाउड कंप्यूटिंग जैसी अत्याधुनिक तकनीकों की मांग बढ़ रही है। विशेषज्ञों के अनुसार, ये प्रौद्योगिकियां आने वाले भविष्य में हर व्यवसाय का एक अनिवार्य हिस्सा बन जाएंगी। विशेष रूप से बिग डेटा को ध्यान में रखते हुए इसकी भारी मांग है। वे जटिल एल्गोरिदम को चलाने के लिए बड़े पैमाने पर डेटा सेट का उपयोग करते हैं और समय के साथ ऐसे फैसले सामने आते हैं जो दूरगामी परिणामों का प्रस्ताव करते हैं। लेकिन असली सवाल यह है कि क्या हम अपने भविष्य के मुनाफे और नुकसान की भविष्यवाणी और परिभाषित करने के लिए पूरी तरह मशीनों पर भरोसा कर सकते हैं?

इस अप्रत्याशित अर्थव्यवस्था में कंपनियां पक्षपाती बाजार और अविश्वसनीय आंकड़ों से जूझ रही हैं। ऐसे परिदृश्य में, बिग डेटा उन्हें निष्कर्ष निकालने और बुद्धिमान व्यावसायिक निर्णयों के साथ उभरने के लिए निर्देशात्मक आंकड़ों का उपयोग करने की अनुमति देता है। तो फिर बिग डेटा कहां गलत हो सकता है?

एक बिंदु पर जब डेटा व्यवसाय के मालिकों को नियंत्रित करना शुरू कर देता है और रचनात्मकता को खाड़ी में रखा जाता है। एक बिंदु पर, जब व्यवसाय रीयल-टाइम इंटरैक्शन आधारित परिणामों के बजाय मशीन-उन्मुख परिणामों पर भरोसा करना शुरू कर देता है। और एक बिंदु पर, जब व्यवसायों को लोगों के बजाय मशीनों द्वारा नियंत्रित किया जाता है, तो इसके अंकित मूल्य के लिए बिग डेटा की शक्ति को स्वीकार किया जा रहा है। क्योंकि जानकारी एक मशीन से आ रही है, लोग मानते हैं कि यह सटीक होना चाहिए लेकिन दुर्भाग्य से, ऐसा नहीं है।

अधिकांश विश्लेषणात्मक मॉडलों में अंतर्निर्मित त्रुटियाँ और गलत गणनाएँ होती हैं, जिनके पूर्वानुमान अंततः हर आधिकारिक प्रणाली में ध्वस्त हो जाते हैं और बिग डेटा के साथ तबाही की संभावना तुलनात्मक रूप से अधिक होती है। आइए समझते हैं कि बिग डेटा की तीन सबसे आम समस्याएं क्या हैं।

घोस्ट डेटा

हमारे दैनिक निर्णयों को तैयार करने के लिए आम तौर पर जो डेटा हमारे सामने आता है, वह विशाल डेटाबेस से आता है जिसका एक जटिल विश्लेषणात्मक प्रक्रिया के माध्यम से विश्लेषण किया जाता है। आप उन नंबरों का अंदाजा नहीं लगा सकते हैं कि वे सटीक हैं या नहीं।

आइए डेटा निर्माण की प्रक्रिया के बारे में एक संक्षिप्त अवलोकन करें। ज्यादातर मामलों में, फ्रंट-लाइन कर्मचारी एक मशीन में डेटा डालते हैं जो मानवीय त्रुटि के अधीन होता है। दोबारा, कैशियर सही बार कोड दर्ज करने के लिए ज़िम्मेदार हैं, जबकि स्टॉक कर्मियों को स्टॉक को सही ढंग से गिनना और रखना चाहिए। इन कार्य जिम्मेदारियों को अभी मशीनों में शामिल किया जाना है और वर्तमान में मनुष्यों को सौंपा गया है।

नतीजतन, त्रुटियां अपरिहार्य हैं जो संख्या में विसंगतियों को जन्म देती हैं और इसके परिणामस्वरूप, उपभोक्ताओं के साथ-साथ आपूर्तिकर्ताओं के क्रय और विपणन निर्णयों को प्रभावित करती हैं। डेटा द्वारा निभाई गई भूमिका को समझना महत्वपूर्ण है और इसलिए, सिस्टम में प्रवेश करने वाली संख्याओं को नियंत्रित करना आवश्यक है।

डेटा पर आंख बंद करके भरोसा करना

नौकरी के प्रदर्शन का मूल्यांकन करने से लेकर छात्रों की गुणवत्ता का आकलन करने के लिए एक निश्चित प्रतिमान के आधार पर, डेटा अब हमारे जीवन का एक हिस्सा बन गया है। आज, हम कुछ परिस्थितियों में डेटा पर इतने निर्भर हैं कि कुछ कार्यों को उनके बिना नहीं किया जा सकता है। मशीन में घुसने से पहले डेटा में आसानी से हेरफेर किया जा सकता है और यह आँख बंद करके भरोसा करने का दोष है। साथ ही, हर कोई मानव के फैसले पर सवाल उठाना पसंद करेगा लेकिन मशीनों के मामले में, डेटा एनालिटिक्स के परिणाम अक्सर निर्विरोध हो जाते हैं। प्रत्यक्ष तुलना किए जाने से पहले यह विचार करना महत्वपूर्ण है कि डेटा सेट को किसी भी तरह से बदल दिया गया है या नहीं।

सांख्यिकीय ओवरफिटिंग

आपकी समझ के लिए, कोई भी व्यावसायिक निर्णय पिछले व्यवहारों से प्राप्त सांख्यिकीय अनुमानों पर आधारित होता है। हालांकि, यह प्रक्रिया पूरी तरह से दोषपूर्ण है, विशेष रूप से जहां डेटा सेट छोटे हैं और कुछ आउटलेयर के लिए परिणाम को महत्वपूर्ण रूप से मोड़ने के लिए उपयुक्त हैं।

प्रत्येक डेटा सेट में यादृच्छिकता का एक तत्व होता है, जो मानता है कि भविष्य कहनेवाला मॉडल जितना अधिक सटीक रूप से पिछली घटनाओं के लिए अनुकूलित किया जाता है, उसकी भविष्य की सटीकता उतनी ही कम होती है।

ऐसे निष्कर्ष निकले हैं, जब उच्चतम जटिलता वाले मॉडल विफल हुए और विनाशकारी परिणाम दिए। उदाहरण के लिए, शेयर बाजार की भविष्यवाणियों के मॉडल, जहां लोग हर दिन अरबों का जोखिम उठाते हैं। बाजार में ऐसे एप्लिकेशन उपलब्ध हैं जो सटीक भविष्यवाणी करने का दावा करते हैं लेकिन कभी-कभी विफल हो जाते हैं।

इसका मतलब यह नहीं है कि हमें निर्णय लेने और भविष्य की भविष्यवाणी करने के लिए मशीनों का उपयोग करना बंद कर देना चाहिए। हमें बस इतना करना है कि जानकारी इकट्ठा करने के लिए मशीनों का उपयोग करते समय अन्य स्रोतों को खुला रखें। संख्याओं को आँख बंद करके स्वीकार करना जोखिम भरा और पेचीदा है, इसलिए डेटा संग्रह की प्रक्रिया और निष्कर्ष कैसे निकाले गए, इस पर विचार करना आवश्यक है। इससे आप सूचित निर्णय लेने में सक्षम होंगे और फलस्वरूप नुकसान से बच सकेंगे।