Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

डेटा विवेकीकरण क्या है?

<घंटा/>

डेटा विवेकीकरण तकनीकों का उपयोग विशेषता की सीमा को अंतराल में विभाजित करके किसी दिए गए निरंतर विशेषता के लिए मानों की संख्या को कम करने के लिए किया जा सकता है। वास्तविक डेटा मानों को पुनर्स्थापित करने के लिए अंतराल लेबल का उपयोग किया जा सकता है। यह कम संख्या में अंतराल लेबल के साथ एक सतत विशेषता के कई मानों को पुनर्स्थापित कर सकता है इसलिए मूल जानकारी को कम और सरल करता है।

इससे खनन परिणामों का संक्षिप्त, उपयोग में आसान, ज्ञान-स्तर का प्रतिनिधित्व होता है। विवेकीकरण तकनीकों को वर्गीकृत किया जा सकता है, यह इस बात पर निर्भर करता है कि विवेकीकरण कैसे लागू किया जाता है, जैसे कि यह वर्ग डेटा का उपयोग करता है या किस दिशा में आगे बढ़ता है (यानी, ऊपर-नीचे बनाम नीचे-ऊपर)। यदि विवेकीकरण प्रक्रिया वर्ग डेटा का उपयोग करती है, तो यह कह सकता है कि यह पर्यवेक्षित विवेक है। इसलिए, यह पर्यवेक्षित नहीं है।

यदि प्रक्रिया पूरी विशेषता श्रेणी को विभाजित करने के लिए पहले एक या कुछ बिंदुओं (विभाजन बिंदु या कट बिंदु के रूप में जाना जाता है) की खोज से शुरू होती है, और फिर परिणामी अंतराल पर इसे पुनरावर्ती रूप से जारी रखती है, तो इसे टॉप-डाउन विवेकीकरण या विभाजन के रूप में जाना जाता है।

बॉटम-अप विवेकीकरण या विलय में, यह सभी निरंतर मूल्यों को संभावित विभाजन-बिंदुओं के रूप में विचार करके शुरू कर सकता है, कुछ को अंतराल के रूप में विलय करके पड़ोस के मूल्यों को हटा देता है, और फिर इस प्रक्रिया को परिणामी अंतराल पर पुनरावर्ती रूप से लागू करता है। एक अवधारणा पदानुक्रम के रूप में संदर्भित विशेषता मानों के पदानुक्रमित या बहु-रिज़ॉल्यूशन विभाजन का समर्थन करने के लिए विवेकीकरण को एक विशेषता पर पुनरावर्ती रूप से लागू किया जा सकता है।

अवधारणा पदानुक्रम अमूर्तता के कई स्तरों पर खनन के लिए उपयोगी हैं। किसी दिए गए संख्यात्मक विशेषता के लिए एक अवधारणा पदानुक्रम विशेषता के विवेक का प्रतिनिधित्व करता है। उच्च-स्तरीय अवधारणाओं (युवा, मध्यम आयु वर्ग या वरिष्ठ सहित) के साथ निम्न-स्तरीय अवधारणाओं (विशेषता आयु के लिए संख्यात्मक मानों सहित) को एकत्रित और पुनर्स्थापित करके डेटा को कम करने के लिए अवधारणा पदानुक्रम का उपयोग किया जा सकता है। हालांकि इस तरह के डेटा सामान्यीकरण द्वारा विवरण छिपा हुआ है, सामान्यीकृत डेटा अधिक सार्थक और निष्पादित करने में आसान हो सकता है।

यह कई खनन कार्यों के बीच डेटा माइनिंग परिणामों का एक सुसंगत विवरण प्रदान करता है, जो एक सामान्य आवश्यकता है। इसके अलावा, कम डेटा सेट पर खनन के लिए कम इनपुट/आउटपुट संचालन की आवश्यकता होती है और उच्च, गैर-सामान्यीकृत डेटा सेट पर खनन से अधिक सक्षम होता है। इन फायदों के कारण, विवेकीकरण तकनीक और अवधारणा पदानुक्रम आमतौर पर खनन के दौरान डेटा माइनिंग से पहले प्रीप्रोसेसिंग चरण के रूप में उपयोग किए जाते हैं।

संख्यात्मक विशेषताओं के लिए अवधारणा पदानुक्रमों को स्वचालित रूप से उत्पन्न या गतिशील रूप से परिष्कृत करने के लिए कई विवेकीकरण विधियों का उपयोग किया जा सकता है। इसके अलावा, श्रेणीबद्ध विशेषताओं के लिए कई पदानुक्रम डेटाबेस डिज़ाइन के अंदर निहित हैं और स्कीमा परिभाषा स्तर पर स्वचालित रूप से प्रदर्शित किए जा सकते हैं।


  1. डेटा सेंटर क्या है?

    एक डेटा केंद्र, जिसे कभी-कभी डेटासेंटर . के रूप में लिखा जाता है (एक शब्द), एक ऐसी सुविधा को दिया गया नाम है जिसमें बड़ी संख्या में कंप्यूटर सर्वर और संबंधित उपकरण होते हैं। एक डेटा सेंटर को कंप्यूटर रूम के रूप में सोचें जो इसकी दीवारों को बढ़ा देता है। वे किसी भी तरह का डेटा स्टोर कर सकते हैं, चाह

  1. STREAM क्या है?

    STREAM एक व्यक्तिगत-पास, निरंतर तत्व सन्निकटन एल्गोरिथ्म है जो k- माध्यिका समस्या के लिए तैयार किया गया था। k-माध्यमों की समस्या N डेटा बिंदुओं को k समूहों या समूहों में क्लस्टर करना है जैसे कि बिंदुओं और क्लस्टर केंद्र के बीच योग चुकता त्रुटि (SSQ) जिसे उन्हें सौंपा गया है, कम से कम है। विचार एक ही

  1. सीरियलाइजेशन क्या है?

    हाल ही में एक प्रोजेक्ट अपडेट मीटिंग के दौरान, मेरी टीम ने इस बारे में बात की कि हम इस एप्लिकेशन से डेटा को आगे और पीछे भेजने के लिए क्रमांकन का उपयोग कैसे करने जा रहे हैं। एक इंजीनियर जो सॉफ्टवेयर परियोजनाओं में और अधिक काम करना चाह रहा था, उसने मुझे बताया कि वे इस शब्द से अपरिचित थे। इस तरह की