Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

संख्या में कमी क्या है?

<घंटा/>

संख्यात्मकता में कमी में, डेटा प्रतिनिधित्व का एक वैकल्पिक, छोटा रूप चुनकर डेटा वॉल्यूम कम किया जाता है। ये तकनीकें पैरामीट्रिक या गैर-पैरामीट्रिक हो सकती हैं। पैरामीट्रिक विधियों के लिए, डेटा का अनुमान लगाने के लिए एक मॉडल का उपयोग किया जाता है, ताकि वास्तविक डेटा के बजाय केवल डेटा पैरामीटर को संग्रहीत करने की आवश्यकता हो, उदाहरण के लिए, लॉग-लीनियर मॉडल। गैर-पैरामीट्रिक विधियों का उपयोग डेटा के कम प्रतिनिधित्व को संग्रहीत करने के लिए किया जाता है जिसमें हिस्टोग्राम, क्लस्टरिंग और नमूनाकरण शामिल हैं।

संख्या घटाने की निम्नलिखित तकनीकें हैं जो इस प्रकार हैं -

प्रतिगमन और लॉग-रैखिक मॉडल - इन मॉडलों का उपयोग दिए गए डेटा का अनुमान लगाने के लिए किया जा सकता है। रैखिक प्रतिगमन में, डेटा को एक सीधी रेखा में फिट करने के लिए तैयार किया जाता है। उदाहरण के लिए, एक यादृच्छिक चर, y (प्रतिक्रिया चर के रूप में जाना जाता है), को समीकरण y =wx+b के साथ एक अन्य यादृच्छिक चर, x (पूर्वसूचक चर के रूप में जाना जाता है) के रैखिक कार्य के रूप में तैयार किया जा सकता है, जहां y का विचरण स्थिर माना जाता है।

लॉग-लीनियर मॉडल - इन मॉडलों का उपयोग असतत बहुआयामी संभाव्यता वितरणों का अनुमान लगाने के लिए किया जाता है। n आयामों में टुपल्स के एक सेट को देखते हुए (जैसे, n विशेषताओं द्वारा), यह प्रत्येक टपल को n-आयामी अंतरिक्ष में एक बिंदु के रूप में मान सकता है।

लॉग-रैखिक मॉडल का उपयोग बहुआयामी अंतरिक्ष में प्रत्येक बिंदु की संभावना को मापने के लिए किया जा सकता है, जो कि अलग-अलग विशेषताओं के एक सेट के लिए होता है, जो आयामी संयोजनों के एक छोटे उपसमुच्चय पर निर्भर करता है। यह एक उच्च-आयामी डेटा फ़ील्ड को निम्न-आयामी रिक्त स्थान से उत्पन्न करने में सक्षम बनाता है।

हिस्टोग्राम - हिस्टोग्राम डेटा वितरण का अनुमान लगाने के लिए बिनिंग का उपयोग करते हैं और डेटा कमी का एक प्रसिद्ध रूप हैं। एक विशेषता के लिए एक हिस्टोग्राम, ए, ए के डेटा वितरण को अलग-अलग सबसेट या बकेट में विभाजित करता है। यदि प्रत्येक बकेट केवल एक व्यक्तिगत विशेषता-मान/आवृत्ति जोड़ी को परिभाषित करता है, तो बकेट को सिंगलटन बकेट के रूप में जाना जाता है।

क्लस्टरिंग -क्लस्टरिंग तकनीक डेटा टुपल्स को ऑब्जेक्ट मानती है। वे वस्तुओं को समूहों या समूहों में विभाजित करते हैं ताकि एक क्लस्टर के भीतर की वस्तुएं एक दूसरे से "समान" हों और अन्य समूहों में वस्तुओं के लिए "असमान" हों। यह आमतौर पर परिभाषित किया जाता है कि दूरी के कार्य के आधार पर वस्तुएं अंतरिक्ष में "करीब" कैसे होती हैं।

क्लस्टर की गुणवत्ता को उसके व्यास द्वारा परिभाषित किया जा सकता है, क्लस्टर में किन्हीं दो वस्तुओं के बीच की अधिकतम दूरी। सेंट्रोइड दूरी क्लस्टर गुणवत्ता का एक वैकल्पिक उपाय है और क्लस्टर केंद्र से प्रत्येक क्लस्टर ऑब्जेक्ट की औसत दूरी के रूप में दर्शाया जाता है जो क्लस्टर के क्षेत्र में "औसत वस्तु" या औसत बिंदु को दर्शाता है।

नमूनाकरण - नमूनाकरण का उपयोग डेटा में कमी के दृष्टिकोण के रूप में किया जा सकता है क्योंकि यह एक विशाल डेटा सेट को जानकारी के बहुत छोटे यादृच्छिक नमूने (या सबसेट) द्वारा परिभाषित करने में सक्षम बनाता है।


  1. ईएलटी क्या है?

    ELT का मतलब एक्सट्रेक्ट, लोड और ट्रांसफॉर्म है। यह एक स्रोत सर्वर से कच्चे डेटा को लक्ष्य सर्वर पर डेटा सिस्टम (जैसे डेटा वेयरहाउस या डेटा लेक) में स्थानांतरित करने और फिर डाउनस्ट्रीम उपयोगों के लिए डेटा को फ़िट करने के लिए एक डेटा एकीकरण प्रक्रिया है। निकालने और लोड प्रक्रिया को परिवर्तन चरण से अल

  1. मॉडल-आधारित क्लस्टरिंग क्या है?

    मॉडल-आधारित क्लस्टरिंग डेटा क्लस्टरिंग के लिए एक सांख्यिकीय दृष्टिकोण है। माना जाता है कि देखे गए (बहुभिन्नरूपी) डेटा को घटक मॉडल के एक सीमित संयोजन से बनाया गया है। प्रत्येक घटक मॉडल एक संभाव्यता वितरण है, आम तौर पर एक पैरामीट्रिक बहुभिन्नरूपी वितरण। उदाहरण के लिए, एक बहुभिन्नरूपी गाऊसी मिश्रण मॉड

  1. OLAP क्या है?

    OLAP,ऑन-लाइन विश्लेषणात्मक प्रसंस्करण के लिए खड़ा है। OLAP सॉफ्टवेयर तकनीक का एक तत्व है जो विश्लेषकों, प्रबंधकों और अधिकारियों को सूचना के संभावित विचारों की एक विस्तृत विविधता में तेज, सुसंगत, इंटरैक्टिव एक्सेस के माध्यम से डेटा में अंतर्दृष्टि प्राप्त करने के लिए अधिकृत करता है, जिसे वास्तविक आया