डेटा सामान्यीकरण और अवधारणा विवरण के लिए तरीके क्या हैं?

<घंटा/>

डेटा सामान्यीकरण उच्च-स्तरीय अवधारणाओं (जैसे युवा, मध्यम आयु वर्ग और वरिष्ठ) के साथ अपेक्षाकृत निम्न-स्तरीय मानों (जैसे एक विशेषता आयु के लिए संख्यात्मक मान) को प्रतिस्थापित करके डेटा को सारांशित करता है। डेटाबेस में सहेजे गए डेटा की उच्च मात्रा को देखते हुए, अमूर्तता के सामान्यीकृत (निम्न के बजाय) तरीकों पर संक्षिप्त और संक्षिप्त शब्दों में अवधारणाओं को परिभाषित करने में सक्षम होना फायदेमंद है।

यह डेटा सेट को अमूर्त के कई स्तरों पर सामान्यीकृत करने की अनुमति दे रहा है जिससे उपयोगकर्ताओं को डेटा के सामान्य व्यवहार की जांच करने में सुविधा होती है। उदाहरण के लिए, AllElectronics डेटाबेस को देखते हुए, एकल ग्राहक लेनदेन की जांच करने के बजाय, बिक्री प्रबंधक उच्च स्तर पर सामान्यीकृत डेटा को देखना पसंद कर सकते हैं, जिसमें भौगोलिक क्षेत्रों के अनुसार उपयोगकर्ता समूहों द्वारा सारांशित, प्रति समूह खरीदारी की आवृत्ति और उपयोगकर्ताओं की आय शामिल है। यह हमें अवधारणा विवरण की धारणा की ओर ले जाता है, जो डेटा सामान्यीकरण का एक रूप है।

एक अवधारणा आम तौर पर लगातार खरीदारों, स्नातक छात्रों, आदि सहित डेटा के सेट के रूप में परिभाषित होती है। डेटा खनन कार्य के रूप में, अवधारणा विवरण डेटा की एक साधारण गणना नहीं है। इसके बजाय, अवधारणा विवरण डेटा के लक्षण वर्णन और तुलना के लिए विवरण उत्पन्न करता है। इसे वर्ग विवरण के रूप में भी जाना जाता है, जब अवधारणा को वस्तुओं के एक वर्ग के रूप में परिभाषित किया जाता है।

विशेषता डेटा के दिए गए सेट के संक्षिप्त और संक्षिप्त सारांश का समर्थन करती है, जबकि अवधारणा या वर्ग तुलना (जिसे भेदभाव भी कहा जाता है) डेटा के दो या अधिक सेटों की तुलना करने वाले विवरणों का समर्थन करती है। निम्नलिखित मामले हैं जो इस प्रकार हैं -

जटिल डेटा प्रकार और एकत्रीकरण - डेटा वेयरहाउस और OLAP टूल एक बहुआयामी डेटा मॉडल पर निर्भर होते हैं जो डेटा क्यूब के रूप में जानकारी देखते हैं, जिसमें आयाम (या विशेषताएँ) और उपाय (कुल सेवाएँ) शामिल हैं।

हालांकि, कई मौजूदा OLAP सिस्टम आयामों को गैर-संख्यात्मक रिकॉर्ड और उपायों को संख्यात्मक जानकारी तक सीमित रखते हैं। डेटाबेस में कई डेटा प्रकारों की विशेषताएँ शामिल हो सकती हैं, जैसे कि संख्यात्मक, गैर-संख्यात्मक, स्थानिक, पाठ या छवि, जो अवधारणा विवरण में शामिल होनी चाहिए।

उपयोगकर्ता-नियंत्रण बनाम स्वचालन - डेटा वेयरहाउस में ऑन-लाइन विश्लेषणात्मक प्रसंस्करण एक उपयोगकर्ता-नियंत्रित चरण है। ड्रिल-डाउन, रोल-अप, स्लाइसिंग और डाइसिंग सहित OLAP सेवाओं के आयामों और सॉफ़्टवेयर का चयन आम तौर पर उपयोगकर्ताओं द्वारा निर्देशित और प्रबंधित किया जाता है।

यद्यपि कई OLAP प्रणालियों में नियंत्रण उपयोगकर्ता के अनुकूल है, उपयोगकर्ताओं को प्रत्येक आयाम के महत्व की सर्वोत्तम समझ की आवश्यकता होती है। इसके अलावा, यह जानकारी का एक संतोषजनक विवरण पा सकता है, उपयोगकर्ताओं को OLAP संचालन की एक लंबी श्रृंखला को परिभाषित करने की आवश्यकता हो सकती है।

एक अधिक स्वचालित चरण होना वांछनीय है जो उपयोगकर्ताओं को यह तय करने में सहायता करता है कि विश्लेषण में कौन से आयाम (या विशेषताओं) को शामिल किया जाना चाहिए, और रिकॉर्ड्स का एक दिलचस्प सारांश बनाने के लिए दिए गए डेटा सेट को किस हद तक सामान्यीकृत किया जाना चाहिए।