Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

डेटा में कमी क्या है?

<घंटा/>

डेटा माइनिंग को बड़ी मात्रा में डेटाबेस में चयनित डेटा पर लागू किया जाता है। जब डेटा विश्लेषण और खनन बड़ी मात्रा में डेटा पर किया जाता है तो इसे संसाधित करने में बहुत लंबा समय लगता है, जो इसे अव्यवहारिक और अक्षम बनाता है। यह डेटा विश्लेषण के लिए प्रसंस्करण समय को कम कर सकता है, डेटा कमी तकनीकों का उपयोग डेटासेट के कम प्रतिनिधित्व को प्राप्त करने के लिए किया जाता है जो मूल डेटा की अखंडता को बनाए रखते हुए मात्रा में बहुत छोटा होता है। डेटा को कम करके, डेटा माइनिंग प्रक्रिया की दक्षता में सुधार होता है जो समान विश्लेषणात्मक परिणाम उत्पन्न करता है।

डेटा में कमी का उद्देश्य इसे और अधिक कॉम्पैक्ट रूप से परिभाषित करना है। जब डेटा का आकार छोटा होता है, तो परिष्कृत और कम्प्यूटेशनल रूप से उच्च-मूल्य वाले एल्गोरिदम को लागू करना आसान होता है। डेटा की कमी पंक्तियों की संख्या (रिकॉर्ड) या स्तंभों की संख्या (आयाम) के संदर्भ में हो सकती है।

डेटा में कमी के लिए विभिन्न रणनीतियाँ हैं जो इस प्रकार हैं -

डेटा क्यूब एकत्रीकरण - इस पद्धति में, जहां डेटा क्यूब के निर्माण में डेटा के लिए एकत्रीकरण संचालन का उपयोग किया जाता है। इन आंकड़ों में वर्ष 2002 से 2004 के लिए प्रति तिमाही सभी इलेक्ट्रॉनिक्स बिक्री शामिल है। यह कुल प्रति तिमाही के बजाय वार्षिक बिक्री (कुल प्रति वर्ष) में रुचि रखता है। इस प्रकार डेटा को एकत्र किया जा सकता है ताकि परिणामी डेटा प्रति तिमाही के बजाय प्रति वर्ष कुल बिक्री को सारांशित करे। विश्लेषण कार्य के लिए आवश्यक डेटा की हानि के बिना परिणामी डेटा सेट मात्रा में छोटा होता है।

विशेषता उपसमुच्चय चयन - इस पद्धति में, जहां अप्रासंगिक, कमजोर रूप से प्रासंगिक, या निरर्थक विशेषताओं या आयामों को खोजा और हटाया जा सकता है। विश्लेषण के लिए डेटा सेट में सैकड़ों विशेषताएँ शामिल हो सकती हैं, जिनमें से कुछ खनन कार्य के लिए अप्रासंगिक या निरर्थक हो सकती हैं। उदाहरण के लिए, यदि कार्य ग्राहकों को यह व्यवस्थित करना है कि बिक्री के बारे में अधिसूचित होने पर वे सभी इलेक्ट्रॉनिक्स पर एक लोकप्रिय नई सीडी खरीद सकते हैं या नहीं, तो ग्राहक के टेलीफोन नंबर जैसी विशेषताओं के अप्रासंगिक होने की संभावना है, जैसे कि विशेषताओं के विपरीत उम्र या संगीत_स्वाद।

आयाम में कमी - डेटा सेट के आकार को कम करने के लिए एन्कोडिंग तंत्र का उपयोग किया जाता है। आयामीता में कमी में, मूल डेटा का कम या "संपीड़ित" प्रतिनिधित्व प्राप्त करने के लिए डेटा एन्कोडिंग या परिवर्तन लागू होते हैं। यदि मूल डेटा को बिना किसी जानकारी की हानि के संपीड़ित डेटा से फिर से बनाया जा सकता है, तो डेटा में कमी को दोषरहित कहा जाता है।

संख्या में कमी - डेटा को पैरामीट्रिक मॉडल (जो वास्तविक डेटा के बजाय केवल मॉडल पैरामीटर को बचाने के लिए आवश्यक हैं) या क्लस्टरिंग, सैंपलिंग और हिस्टोग्राम के उपयोग सहित गैर-पैरामीट्रिक विधियों सहित वैकल्पिक, छोटे डेटा प्रतिनिधित्व द्वारा पुनर्स्थापित या भविष्यवाणी की जाती है।

विवेकीकरण और अवधारणा पदानुक्रम पीढ़ी - इस पद्धति में, जहां विशेषताओं के लिए कच्चे डेटा मानों को श्रेणियों या उच्च वैचारिक स्तरों से बदल दिया जाता है। डेटा विवेकीकरण संख्यात्मकता में कमी का एक रूप है जो अवधारणा पदानुक्रमों के स्वचालित उत्पादन के लिए बहुत फायदेमंद है। विवेकीकरण और अवधारणा पदानुक्रम पीढ़ी डेटा खनन के लिए गतिशील उपकरण हैं, जिसमें वे अमूर्तता के विभिन्न स्तरों पर डेटा के खनन को सक्षम करते हैं।


  1. डेटा सेंटर क्या है?

    एक डेटा केंद्र, जिसे कभी-कभी डेटासेंटर . के रूप में लिखा जाता है (एक शब्द), एक ऐसी सुविधा को दिया गया नाम है जिसमें बड़ी संख्या में कंप्यूटर सर्वर और संबंधित उपकरण होते हैं। एक डेटा सेंटर को कंप्यूटर रूम के रूप में सोचें जो इसकी दीवारों को बढ़ा देता है। वे किसी भी तरह का डेटा स्टोर कर सकते हैं, चाह

  1. STREAM क्या है?

    STREAM एक व्यक्तिगत-पास, निरंतर तत्व सन्निकटन एल्गोरिथ्म है जो k- माध्यिका समस्या के लिए तैयार किया गया था। k-माध्यमों की समस्या N डेटा बिंदुओं को k समूहों या समूहों में क्लस्टर करना है जैसे कि बिंदुओं और क्लस्टर केंद्र के बीच योग चुकता त्रुटि (SSQ) जिसे उन्हें सौंपा गया है, कम से कम है। विचार एक ही

  1. सीरियलाइजेशन क्या है?

    हाल ही में एक प्रोजेक्ट अपडेट मीटिंग के दौरान, मेरी टीम ने इस बारे में बात की कि हम इस एप्लिकेशन से डेटा को आगे और पीछे भेजने के लिए क्रमांकन का उपयोग कैसे करने जा रहे हैं। एक इंजीनियर जो सॉफ्टवेयर परियोजनाओं में और अधिक काम करना चाह रहा था, उसने मुझे बताया कि वे इस शब्द से अपरिचित थे। इस तरह की