आयाम में कमी
आयामीता में कमी में, मूल डेटा के कम या "संपीड़ित" चित्रण तक पहुंचने के लिए डेटा एन्कोडिंग या ट्रांसफॉर्मेशन का उपयोग किया जाता है। यदि मूल डेटा को बिना किसी डेटा हानि के संपीड़ित डेटा से पुन:उत्पन्न किया जा सकता है, तो डेटा में कमी को दोषरहित के रूप में जाना जाता है। यदि पुनर्निर्मित डेटा केवल मूल डेटा का अनुमान लगाया जाता है, तो डेटा में कमी को हानिपूर्ण कहा जाता है।
डीडब्ल्यूटी लगभग असतत फूरियर ट्रांसफॉर्म (डीएफटी) से जुड़ा हुआ है, एक सिग्नल प्रोसेसिंग तकनीक जिसमें साइन और कोसाइन होते हैं। सामान्य तौर पर, डीडब्ल्यूटी बेहतर हानिपूर्ण संपीड़न प्राप्त करता है। यही है कि यदि किसी दिए गए डेटा वेक्टर के डीडब्ल्यूटी और डीएफटी के लिए समान संख्या में गुणांक बनाए रखा जाता है, तो डीडब्ल्यूटी संस्करण मूल डेटा के अधिक सटीक अनुमान का समर्थन करेगा। इसलिए, एक समान सन्निकटन के लिए, DWT को DFT से कम क्षेत्र की आवश्यकता थी।
संख्या में कमी
संख्यात्मकता में कमी में, डेटा प्रतिनिधित्व के एक वैकल्पिक, छोटे रूप का चयन करके डेटा की मात्रा कम हो जाती है। ये तकनीकें पैरामीट्रिक या गैर-पैरामीट्रिक हो सकती हैं। पैरामीट्रिक विधियों के लिए, एक मॉडल डेटा का अनुमान लगा सकता है, ताकि वास्तविक डेटा के बजाय केवल डेटा पैरामीटर को सहेजने की आवश्यकता हो, उदाहरण के लिए, लॉग-लीनियर मॉडल। गैर-पैरामीट्रिक विधियों का उपयोग डेटा के कम प्रतिनिधित्व को संग्रहीत करने के लिए किया जाता है जिसमें हिस्टोग्राम, क्लस्टरिंग और नमूनाकरण शामिल हैं।
आइए देखते हैं डाइमेंशनलिटी रिडक्शन और न्यूमेरोसिटी रिडक्शन के बीच तुलना।
आयाम में कमी | संख्या में कमी |
---|---|
आयामीता में कमी में, मूल डेटा का कम या संकुचित प्रतिनिधित्व प्राप्त करने के लिए डेटा एन्कोडिंग या परिवर्तन लागू किया जाता है। | संख्यात्मकता में कमी में, डेटा प्रतिनिधित्व के वैकल्पिक, छोटे रूपों को चुनकर डेटा वॉल्यूम कम किया जाता है। |
आयामीता में कमी में, डिस्क्रीट वेवलेट ट्रांसफॉर्म (डीडब्ल्यूटी) एक रैखिक सिग्नल प्रोसेसिंग तकनीक है, जो डेटा वेक्टर एक्स के लिए उपयोग की जाती है, इसे वेवलेट गुणांक के संख्यात्मक रूप से भिन्न वेक्टर, एक्स 'में बदल देती है। दो वैक्टर समान लंबाई के हैं। इस तकनीक को डेटा कमी के लिए लागू करते समय, यह प्रत्येक टपल को एक n-आयामी डेटा वेक्टर के रूप में मान सकता है, अर्थात X=(x1 ,x<उप>2उप> ,…x<उप>एनउप> ) n डेटाबेस विशेषताओं से टपल पर किए गए n मापों को दर्शाता है। | संख्यात्मकता में कमी में, दिए गए डेटा का अनुमान लगाने के लिए प्रतिगमन और लॉग-रैखिक मॉडल का उपयोग किया जा सकता है। रैखिक प्रतिगमन में, डेटा को एक सीधी रेखा में फिट करने के लिए तैयार किया जाता है। उदाहरण के लिए, एक यादृच्छिक चर, y (प्रतिक्रिया चर के रूप में जाना जाता है), को समीकरण y =wx+b के साथ एक अन्य यादृच्छिक चर, x (पूर्वसूचक चर के रूप में जाना जाता है) के रैखिक कार्य के रूप में तैयार किया जा सकता है, जहां y का विचरण स्थिर माना जाता है। |
इसका उपयोग अप्रासंगिक और अनावश्यक विशेषताओं को हटाने के लिए किया जा सकता है। | यह मूल डेटा को छोटे रूप में प्रस्तुत करने की एक तकनीक मात्र है। |
इस तकनीक में, कुछ डेटा खो सकता है जो अनुपयुक्त है। | इस पद्धति में, डेटा का कोई नुकसान नहीं होता है, लेकिन पूरे डेटा को एक छोटे रूप में दर्शाया जाता है। |