डेटा परिवर्तन क्या है?

<घंटा/>

डेटा परिवर्तन में, डेटा को खनन के लिए उपयुक्त रूपों में रूपांतरित या संयोजित किया जाता है। डेटा परिवर्तन में निम्नलिखित शामिल हो सकते हैं -

चिकनाई - यह डेटा से शोर को दूर करने का काम कर सकता है। इस तरह के तरीकों में बिनिंग, रिग्रेशन और क्लस्टरिंग शामिल हैं।

एकत्रीकरण - एकत्रीकरण में, जहां डेटा पर सारांश या एकत्रीकरण संचालन लागू किया जाता है। उदाहरण के लिए, मासिक और वार्षिक कुल राशियों की गणना करने के लिए दैनिक बिक्री डेटा एकत्र किया जा सकता है। इस चरण का उपयोग आम तौर पर कई ग्रैन्युलैरिटी पर डेटा के विश्लेषण के लिए डेटा क्यूब बनाने में किया जाता है।

सामान्यीकरण - सामान्यीकरण में, जहां निम्न-स्तरीय या "आदिम" (कच्चा) डेटा को अवधारणा पदानुक्रमों के उपयोग के माध्यम से बड़े-स्तर की अवधारणाओं द्वारा पुनर्स्थापित किया जाता है। उदाहरण के लिए, स्पष्ट विशेषताओं, जैसे कि सड़क, को शहर या देश जैसे बड़े स्तर की अवधारणाओं के लिए सामान्यीकृत किया जा सकता है। इसी तरह, उम्र जैसी संख्यात्मक विशेषताओं के मूल्यों को युवा, मध्यम आयु वर्ग और वरिष्ठ जैसे बड़े स्तर की अवधारणाओं में मैप किया जा सकता है।

सामान्यीकरण - सामान्यीकरण में, जहां विशेषता डेटा को एक छोटी निर्दिष्ट सीमा, जैसे -1.0 से 1.0, या 0.0 से 1.0 के भीतर गिरने के लिए स्केल किया जाता है।

विशेषता निर्माण - विशेषता निर्माण में, जहां खनन प्रक्रिया को सुविधाजनक बनाने के लिए दिए गए विशेषताओं के सेट से नई विशेषताओं को विकसित और जोड़ा जाता है।

स्मूथिंग डेटा सफाई का एक रूप है और इसे डेटा सफाई प्रक्रिया में संबोधित किया गया था जहां उपयोगकर्ता डेटा विसंगतियों को ठीक करने के लिए परिवर्तन निर्दिष्ट करते हैं। एकत्रीकरण और सामान्यीकरण डेटा में कमी के रूपों के रूप में प्रदान करते हैं। एक विशेषता को उसके मानों को स्केल करके सामान्यीकृत किया जाता है ताकि वे 0.0 से 1.0 सहित एक छोटे से निर्दिष्ट क्रम में कम हो जाएं।

सामान्यीकरण विशेष रूप से तंत्रिका नेटवर्क वाले वर्गीकरण एल्गोरिदम, या निकटतम-पड़ोसी वर्गीकरण और क्लस्टरिंग जैसे दूरी माप के लिए सहायक होता है। यदि वर्गीकरण खनन के लिए तंत्रिका नेटवर्क बैकप्रोपेगेशन एल्गोरिदम का उपयोग करते हैं, तो प्रशिक्षण टुपल्स में मापी गई प्रत्येक विशेषता के लिए इनपुट मानों को सामान्य करने से सीखने के चरण को गति देने में मदद मिलेगी।

दूरी-आधारित विधियों के लिए, सामान्यीकरण शुरू में छोटी श्रेणियों (जैसे, बाइनरी विशेषताओं) के साथ शुरू में बड़ी श्रेणियों (जैसे, आय) के साथ विशेषताओं को रोकने में मदद करता है। डेटा सामान्यीकरण के लिए कई तरीके हैं जो इस प्रकार हैं -

न्यूनतम-अधिकतम सामान्यीकरण - यह मूल डेटा पर एक रैखिक परिवर्तन लागू करता है। मान लीजिए कि न्यूनतम_A और अधिकतम<उप>ए किसी विशेषता के न्यूनतम और अधिकतम मान हैं, A. न्यूनतम-अधिकतम सामान्यीकरण A से v^' के मान, v को मैप करता है श्रेणी में [new_min_A , new_max_A ] कंप्यूटिंग द्वारा

$$v'=\frac{v-min_{A}}{max_{A}-min_{A}}(new\_max_{A}- new\_min_{A})+new\_min_{A}$$

Z-स्कोर सामान्यीकरण - z-स्कोर सामान्यीकरण (या शून्य-माध्य सामान्यीकरण) में, एक विशेषता, A के मान, A के माध्य और मानक विचलन के आधार पर सामान्यीकृत होते हैं। A का एक मान, v, को v^{'<के लिए सामान्यीकृत किया जाता है। / समर्थन> कंप्यूटिंग द्वारा}

$$v'=\frac{v-A^{'}}{\sigma_{A}}$$

जहाँ A और σ_A विशेषता ए के क्रमशः माध्य और मानक विचलन हैं। सामान्यीकरण की यह विधि तब उपयोगी होती है जब वास्तविक न्यूनतम और अधिकतम विशेषता ए अज्ञात होती है, या जब आउटलेयर होते हैं जो न्यूनतम-अधिकतम सामान्यीकरण पर हावी होते हैं।

दशमलव स्केलिंग - दशमलव स्केलिंग द्वारा सामान्यीकरण विशेषता ए के मूल्यों के दशमलव बिंदु को बदलकर सामान्यीकृत करता है। ए के अधिकतम पूर्ण मूल्य के आधार पर दशमलव बिंदुओं की संख्या को स्थानांतरित किया जाता है। ए के मान, वी, को v^′ कंप्यूटिंग द्वारा

$$v'=\frac{v}{10^{j}}$$

जहाँ j सबसे छोटा पूर्णांक ऐसा है कि अधिकतम (|v^′ |)<1.