Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

डेटा प्रीप्रोसेसिंग में क्या कार्य हैं?

<घंटा/>

डेटा प्रीप्रोसेसिंग में प्रमुख चरण शामिल हैं, अर्थात् डेटा सफाई, डेटा एकीकरण, डेटा कमी, और डेटा परिवर्तन निम्नानुसार है -

डेटा क्लीनिंग - डेटा क्लीनिंग रूटीन गुम मूल्यों को भरकर, शोर की जानकारी को सुचारू करके, आउटलेर्स को पहचानने या समाप्त करने और विचलन को हल करके जानकारी को "साफ" करने के लिए संचालित होता है। यदि उपयोगकर्ता समझते हैं कि डेटा गंदा है, तो वे उपयोग किए गए कुछ डेटा माइनिंग के परिणामों पर भरोसा करने की संभावना नहीं रखते हैं।

इसके अलावा, गंदा डेटा खनन चरण के लिए भ्रम पैदा कर सकता है, जिसके परिणामस्वरूप अस्थिर उत्पादन हो सकता है। कुछ माइनिंग रूटीन में अधूरी या शोर-शराबे वाली जानकारी से निपटने के लिए कुछ चरण होते हैं, वे हमेशा शक्तिशाली नहीं होते हैं। इसके बजाय, वे मॉडल किए जा रहे फ़ंक्शन के लिए जानकारी को ओवरफिट करने से रोकने पर ध्यान केंद्रित कर सकते हैं।

डेटा एकीकरण - डेटा एकीकरण कई अलग-अलग स्रोतों से डेटा को मर्ज करने की प्रक्रिया है। डेटा एकीकरण करते समय, इसे डेटा अतिरेक, असंगति, दोहराव आदि पर काम करना चाहिए। डेटा माइनिंग में, डेटा एकीकरण एक रिकॉर्ड प्रीप्रोसेसिंग विधि है जिसमें एक एकीकृत डेटा को बनाए रखने और प्रदान करने के लिए कुछ विषम डेटा स्रोतों के डेटा को सुसंगत डेटा में मर्ज करना शामिल है। डेटा का परिप्रेक्ष्य।

स्वास्थ्य सेवा उद्योग में डेटा एकीकरण विशेष रूप से महत्वपूर्ण है। एकाधिक रोगी डेटा और क्लीनिकों से एकीकृत डेटा, लाभकारी डेटा के एक व्यक्तिगत परिप्रेक्ष्य में कई प्रणालियों के डेटा को एकीकृत करके चिकित्सा विकारों और बीमारियों को पहचानने में चिकित्सकों की सहायता करता है जिससे लाभकारी अंतर्दृष्टि प्राप्त की जा सकती है।

डेटा में कमी - डेटा में कमी का उद्देश्य इसे और अधिक कॉम्पैक्ट रूप से परिभाषित करना है। जब डेटा का आकार छोटा होता है, तो परिष्कृत और कम्प्यूटेशनल रूप से उच्च लागत वाले एल्गोरिदम का उपयोग करना आसान होता है। डेटा की कमी एकाधिक पंक्तियों (रिकॉर्ड) या एकाधिक कॉलम (आयाम) की शर्तों के संदर्भ में हो सकती है।

आयामीता में कमी में, डेटा एन्कोडिंग योजनाओं का उपयोग किया जाता है ताकि प्रारंभिक डेटा का कम या "संपीड़ित" विवरण प्राप्त किया जा सके। उदाहरणों में डेटा संपीड़न विधियां (जैसे, तरंगिका रूपांतरण और प्रमुख घटक विश्लेषण), विशेषता उपसमुच्चय चयन (जैसे, अप्रासंगिक विशेषताओं को हटाना), और विशेषता निर्माण (जैसे, जहां अधिक लाभकारी विशेषताओं का एक छोटा सेट प्रारंभिक सेट से बदल दिया जाता है) शामिल हैं।

संख्यात्मकता में कमी में, डेटा को रिग्रेशन या लॉग-लीनियर मॉडल या गैर-पैरामीट्रिक मॉडल जैसे हिस्टोग्राम, क्लस्टर, नमूनाकरण, या डेटा एकत्रीकरण जैसे पैरामीट्रिक मॉडल का उपयोग करके वैकल्पिक, छोटे विवरण द्वारा पुनर्स्थापित किया जाता है।

डेटा परिवर्तन - डेटा परिवर्तन में, जहां डेटा को सारांश या एकत्रीकरण कार्यों को निष्पादित करके खनन के लिए लागू रूपों में रूपांतरित या लिंक किया जाता है। डेटा परिवर्तन में, इसमें शामिल हैं -

चिकनाई - यह डेटा से शोर को दूर करने का काम कर सकता है। ऐसी तकनीकों में बिनिंग, रिग्रेशन और क्लस्टरिंग शामिल हैं।

एकत्रीकरण - एकत्रीकरण में, जहां डेटा के लिए सारांश या एकत्रीकरण सेवाओं का उपयोग किया जाता है। उदाहरण के लिए, मासिक और वार्षिक कुल राशियों की गणना करने के लिए दैनिक बिक्री डेटा को एकत्र किया जा सकता है। इस प्रक्रिया का उपयोग आम तौर पर कई ग्रैन्युलैरिटी पर रिकॉर्ड के विश्लेषण के लिए डेटा क्यूब विकसित करने में किया जाता है।


  1. डेटा माइनिंग इंटरफेस क्या हैं?

    डेटा माइनिंग सांख्यिकीय और गणितीय तकनीकों सहित पैटर्न पहचान तकनीकों का उपयोग करके, रिपॉजिटरी में सहेजे गए डेटा की एक उच्च मात्रा के माध्यम से उपयोगी नए सहसंबंध, पैटर्न और प्रवृत्तियों को खोजने की प्रक्रिया है। यह अनपेक्षित संबंधों की खोज करने के लिए तथ्यात्मक डेटासेट का विश्लेषण है और डेटा स्वामी क

  1. डेटा अखंडता के प्रकार क्या हैं?

    डेटाबेस अखंडता संग्रहीत जानकारी की वैधता और स्थिरता को परिभाषित करती है। अखंडता को आम तौर पर बाधाओं के संदर्भ में परिभाषित किया जाता है, जो स्थिरता नियम हैं जिनका डेटाबेस को उल्लंघन करने की अनुमति नहीं है। बाधाएं प्रत्येक विशेषता पर लागू हो सकती हैं या वे तालिकाओं के बीच संबंधों पर लागू हो सकती हैं।

  1. स्टेग्नोग्राफ़ी के आवेदन क्या हैं?

    स्टेग्नोग्राफ़ी को स्पष्ट रूप से हानिरहित संदेशों के भीतर संदेशों को एम्बेड करके डेटा छिपाने की कला और विज्ञान के रूप में भी दर्शाया गया है। स्टेग्नोग्राफ़ी नियमित कंप्यूटर फ़ाइलों में बेकार या अप्रयुक्त जानकारी के बिट्स को पुनर्स्थापित करके काम करती है। यह छिपा हुआ डेटा प्लेन टेक्स्ट या सिफर टेक्स्