डेटा सामान्यीकरण उच्च-स्तरीय अवधारणाओं (युवा, मध्यम आयु वर्ग और वरिष्ठ सहित) के साथ अपेक्षाकृत निम्न-स्तरीय मानों (विशेषता आयु के लिए संख्यात्मक मान सहित) को प्रतिस्थापित करके डेटा को सारांशित करता है। इसलिए, यह एक ऐसी प्रक्रिया है जो एक डेटाबेस में अपेक्षाकृत कम वैचारिक स्तर से उच्च वैचारिक स्तर तक कार्य-प्रासंगिक जानकारी के एक विशाल समूह को सारगर्भित करती है।
बड़े डेटा सेट के कुशल और लचीले सामान्यीकरण के लिए दो दृष्टिकोण निम्नलिखित हैं -
OLAP दृष्टिकोण - डेटा क्यूब तकनीक को डेटा वेयरहाउस-आधारित, पूर्व-गणना-उन्मुख, भौतिक दृश्य दृष्टिकोण के रूप में माना जा सकता है। OLAP या डेटा माइनिंग क्वेरी को प्रोसेसिंग के लिए ले जाने से पहले यह ऑफ़लाइन एकत्रीकरण को लागू करता है।
विशेषता-उन्मुख प्रेरण दृष्टिकोण - यह एक रिलेशनल डेटाबेस क्वेरी-ओरिएंटेड, सामान्यीकरण-आधारित, ऑनलाइन डेटा विश्लेषण दृष्टिकोण है। विशेषता-उन्मुख प्रेरण में, पहले, कार्य-प्रासंगिक जानकारी एक रिलेशनल डेटाबेस क्वेरी का उपयोग करके एकत्र की जाती है और फिर डेटा के प्रासंगिक संग्रह में प्रत्येक विशेषता के कई अलग-अलग मूल्यों की जांच के आधार पर सामान्यीकरण लागू किया जाता है।
सामान्यीकरण विशेषता हटाने के द्वारा कार्यान्वित किया जाता है। समान सामान्यीकृत टुपल्स को मिलाकर और उनकी संबंधित गणनाओं को जमा करके एकत्रीकरण को लागू करते हैं, सामान्यीकृत डेटा सेट के आकार को कम करते हैं और उपयोगकर्ताओं के साथ इंटरैक्टिव प्रस्तुतिकरण करते हैं।
विशेषता-उन्मुख प्रेरण दृष्टिकोण के मूल सिद्धांत -
- डेटा फ़ोकसिंग - डेटा कार्य-संबंधी होना चाहिए, जैसे कि आयाम और परिणाम मूल संबंध है।
- विशेषता-निष्कासन - यह प्रासंगिक विशेषताओं का सेट चुन सकता है या ए विशेषताओं को हटा सकता है यदि ए के लिए विशिष्ट मानों का एक बड़ा सेट है लेकिन ए पर कोई सामान्यीकरण ऑपरेटर नहीं है, या ए की उच्च-स्तरीय अवधारणाओं को अतिरिक्त विशेषताओं के संदर्भ में परिभाषित किया गया है।
- विशेषता सामान्यीकरण - यदि ए के लिए विशिष्ट मूल्यों का एक बड़ा सेट है, और ए पर सामान्यीकरण ऑपरेटरों का एक सेट मौजूद है, तो एक ऑपरेटर का चयन करें और ए को सामान्यीकृत करें।
- विश्लेषणात्मक लक्षण वर्णन - यह अप्रासंगिक विशेषताओं को फ़िल्टर करने या प्रासंगिक विशेषता को रैंक करने के लिए प्रीप्रोसेसिंग डेटा के लिए एक सांख्यिकीय दृष्टिकोण है। विशेषता प्रासंगिकता विश्लेषण के उपायों का उपयोग अप्रासंगिक विशेषताओं का विश्लेषण करने के लिए किया जा सकता है जिन्हें अवधारणा विवरण प्रक्रिया से अनधिकृत किया जा सकता है। इस प्रीप्रोसेसिंग चरण को वर्ग लक्षण वर्णन या तुलना में शामिल करना एक विश्लेषणात्मक लक्षण वर्णन के रूप में परिभाषित किया गया है।
विशेषता प्रासंगिकता विश्लेषण के कारण
विशेषता प्रासंगिकता विश्लेषण के कई कारण इस प्रकार हैं -
-
यह निर्धारित कर सकता है कि किन आयामों को शामिल किया जाना चाहिए।
-
यह उच्च स्तर के सामान्यीकरण को प्राप्त कर सकता है।
-
यह उन विशेषताओं की संख्या को कम कर सकता है जो पैटर्न को आसानी से समझने में हमारी सहायता करती हैं।
विशेषता प्रासंगिकता विश्लेषण के पीछे मूल अवधारणा कुछ माप का मूल्यांकन करना है जो किसी दिए गए वर्ग या दृष्टिकोण के संबंध में किसी विशेषता की प्रासंगिकता की गणना कर सकता है। इस तरह के उपायों में सूचना लाभ, अस्पष्टता और सहसंबंध गुणांक शामिल हैं।