संख्या में कमी क्या है?

<घंटा/>

संख्यात्मकता में कमी में, डेटा प्रतिनिधित्व का एक वैकल्पिक, छोटा रूप चुनकर डेटा वॉल्यूम कम किया जाता है। ये तकनीकें पैरामीट्रिक या गैर-पैरामीट्रिक हो सकती हैं। पैरामीट्रिक विधियों के लिए, डेटा का अनुमान लगाने के लिए एक मॉडल का उपयोग किया जाता है, ताकि वास्तविक डेटा के बजाय केवल डेटा पैरामीटर को संग्रहीत करने की आवश्यकता हो, उदाहरण के लिए, लॉग-लीनियर मॉडल। गैर-पैरामीट्रिक विधियों का उपयोग डेटा के कम प्रतिनिधित्व को संग्रहीत करने के लिए किया जाता है जिसमें हिस्टोग्राम, क्लस्टरिंग और नमूनाकरण शामिल हैं।

संख्या घटाने की निम्नलिखित तकनीकें हैं जो इस प्रकार हैं -

प्रतिगमन और लॉग-रैखिक मॉडल - इन मॉडलों का उपयोग दिए गए डेटा का अनुमान लगाने के लिए किया जा सकता है। रैखिक प्रतिगमन में, डेटा को एक सीधी रेखा में फिट करने के लिए तैयार किया जाता है। उदाहरण के लिए, एक यादृच्छिक चर, y (प्रतिक्रिया चर के रूप में जाना जाता है), को समीकरण y =wx+b के साथ एक अन्य यादृच्छिक चर, x (पूर्वसूचक चर के रूप में जाना जाता है) के रैखिक कार्य के रूप में तैयार किया जा सकता है, जहां y का विचरण स्थिर माना जाता है।

लॉग-लीनियर मॉडल - इन मॉडलों का उपयोग असतत बहुआयामी संभाव्यता वितरणों का अनुमान लगाने के लिए किया जाता है। n आयामों में टुपल्स के एक सेट को देखते हुए (जैसे, n विशेषताओं द्वारा), यह प्रत्येक टपल को n-आयामी अंतरिक्ष में एक बिंदु के रूप में मान सकता है।

लॉग-रैखिक मॉडल का उपयोग बहुआयामी अंतरिक्ष में प्रत्येक बिंदु की संभावना को मापने के लिए किया जा सकता है, जो कि अलग-अलग विशेषताओं के एक सेट के लिए होता है, जो आयामी संयोजनों के एक छोटे उपसमुच्चय पर निर्भर करता है। यह एक उच्च-आयामी डेटा फ़ील्ड को निम्न-आयामी रिक्त स्थान से उत्पन्न करने में सक्षम बनाता है।

हिस्टोग्राम - हिस्टोग्राम डेटा वितरण का अनुमान लगाने के लिए बिनिंग का उपयोग करते हैं और डेटा कमी का एक प्रसिद्ध रूप हैं। एक विशेषता के लिए एक हिस्टोग्राम, ए, ए के डेटा वितरण को अलग-अलग सबसेट या बकेट में विभाजित करता है। यदि प्रत्येक बकेट केवल एक व्यक्तिगत विशेषता-मान/आवृत्ति जोड़ी को परिभाषित करता है, तो बकेट को सिंगलटन बकेट के रूप में जाना जाता है।

क्लस्टरिंग -क्लस्टरिंग तकनीक डेटा टुपल्स को ऑब्जेक्ट मानती है। वे वस्तुओं को समूहों या समूहों में विभाजित करते हैं ताकि एक क्लस्टर के भीतर की वस्तुएं एक दूसरे से "समान" हों और अन्य समूहों में वस्तुओं के लिए "असमान" हों। यह आमतौर पर परिभाषित किया जाता है कि दूरी के कार्य के आधार पर वस्तुएं अंतरिक्ष में "करीब" कैसे होती हैं।

क्लस्टर की गुणवत्ता को उसके व्यास द्वारा परिभाषित किया जा सकता है, क्लस्टर में किन्हीं दो वस्तुओं के बीच की अधिकतम दूरी। सेंट्रोइड दूरी क्लस्टर गुणवत्ता का एक वैकल्पिक उपाय है और क्लस्टर केंद्र से प्रत्येक क्लस्टर ऑब्जेक्ट की औसत दूरी के रूप में दर्शाया जाता है जो क्लस्टर के क्षेत्र में "औसत वस्तु" या औसत बिंदु को दर्शाता है।

नमूनाकरण - नमूनाकरण का उपयोग डेटा में कमी के दृष्टिकोण के रूप में किया जा सकता है क्योंकि यह एक विशाल डेटा सेट को जानकारी के बहुत छोटे यादृच्छिक नमूने (या सबसेट) द्वारा परिभाषित करने में सक्षम बनाता है।