Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

डेटा माइनिंग की बुनियादी अवधारणाएं क्या हैं?

<घंटा/>

डेटा माइनिंग सांख्यिकीय और गणितीय तकनीकों सहित पैटर्न पहचान तकनीकों का उपयोग करके, रिपॉजिटरी में सहेजे गए डेटा की एक उच्च मात्रा के माध्यम से उपयोगी नए सहसंबंध, पैटर्न और प्रवृत्तियों को खोजने की प्रक्रिया है। यह अनपेक्षित संबंधों की खोज करने के लिए तथ्यात्मक डेटासेट का विश्लेषण है और डेटा स्वामी के लिए तार्किक और सहायक दोनों तरह के नए तरीकों में रिकॉर्ड को सारांशित करना है।

डेटा माइनिंग की विभिन्न अवधारणाएँ हैं जो इस प्रकार हैं -

वर्गीकरण - वर्गीकरण एक मॉडल की खोज करने की प्रक्रिया है जो डेटा वर्गों या अवधारणाओं का प्रतिनिधित्व करता है और उन्हें अलग करता है, जिसका उद्देश्य उन वस्तुओं के वर्ग की भविष्यवाणी करने के लिए मॉडल का उपयोग करने में सक्षम होना है जिनका वर्ग लेबल गुमनाम है। व्युत्पन्न मॉडल प्रशिक्षण रिकॉर्ड के एक समूह के विश्लेषण पर आधारित है (यानी, डेटा ऑब्जेक्ट जिसका वर्ग लेबल परिचित है)।

भविष्यवाणियां - भविष्यवाणी वर्गीकरण के समान है, सिवाय इसके कि भविष्यवाणी के लिए, परिणाम भविष्य में गलत तरीके से प्रस्तुत किए जाते हैं।

व्यापार और अनुसंधान में पूर्वानुमान कार्यों के उदाहरणों में शामिल हैं -

  • यह भविष्य में तीन महीने में स्टॉक के मूल्य की भविष्यवाणी कर सकता है।

  • यदि गति सीमा बढ़ा दी जाती है तो यह अगले वर्ष यातायात से होने वाली मौतों में प्रतिशत वृद्धि की भविष्यवाणी कर सकता है।

  • यह टीम के आंकड़ों के पत्राचार के आधार पर, इस गिरावट की बेसबॉल विश्व श्रृंखला के विजेता की भविष्यवाणी कर सकता है।

  • इसका अनुमान लगाया जा सकता है कि क्या दवा की खोज में एक निश्चित अणु एक दवा कंपनी के लिए एक लागत प्रभावी नई दवा शुरू करेगा।

एसोसिएशन नियम और अनुशंसा प्रणाली - एसोसिएशन के नियम, या आत्मीयता विश्लेषण, बड़े डेटाबेस में वस्तुओं के बीच ऐसे सामान्य संघों के पैटर्न को खोजने के लिए डिज़ाइन किए गए हैं। नियमों का उपयोग कई तरीकों से किया जा सकता है। उदाहरण के लिए, किराना स्टोर उत्पाद प्लेसमेंट के लिए ऐसी जानकारी का उपयोग कर सकते हैं।

वे साप्ताहिक प्रचार ऑफ़र या उत्पादों को बंडल करने के लिए नियमों का उपयोग कर सकते हैं। लगातार अस्पताल में भर्ती होने के दौरान रोगियों के लक्षणों पर एक अस्पताल डेटाबेस से प्राप्त एसोसिएशन नियम "कौन से लक्षण के बाद कौन सा लक्षण" खोजने में मदद कर सकते हैं ताकि आने वाले रोगियों के भविष्य के लक्षणों की भविष्यवाणी करने में मदद मिल सके।

डेटा में कमी - डेटा माइनिंग का उपयोग बड़ी मात्रा में डेटाबेस में चयनित डेटा के लिए किया जाता है। जब डेटा विश्लेषण और खनन भारी मात्रा में रिकॉर्ड पर पूरा हो जाता है तो इसे संसाधित करने में बहुत अधिक समय लगता है, जो इसे असंभव और असंभव विकसित करता है।

यह डेटा विश्लेषण के लिए प्रसंस्करण समय को कम कर सकता है, डेटा कमी तकनीकों का उपयोग डेटासेट के कम प्रतिनिधित्व को प्राप्त करने के लिए किया जाता है जो मूल डेटा की अखंडता को बनाए रखते हुए मात्रा में बहुत छोटा होता है। डेटा को कम करके, डेटा माइनिंग प्रक्रिया की दक्षता में सुधार होता है जो समान विश्लेषणात्मक परिणाम उत्पन्न करता है।

डेटा में कमी का उद्देश्य इसे और अधिक कॉम्पैक्ट रूप से परिभाषित करना है। जब डेटा का आकार छोटा होता है, तो परिपक्व और कम्प्यूटेशनल रूप से उच्च लागत वाले एल्गोरिदम का उपयोग करना आसान होता है। डेटा की कमी पंक्तियों की संख्या (रिकॉर्ड) या स्तंभों की संख्या (आयाम) के संदर्भ में हो सकती है।


  1. स्थानिक डेटा माइनिंग की मूल बातें क्या हैं?

    स्थानिक डेटा माइनिंग स्थानिक मॉडल के लिए डेटा माइनिंग का अनुप्रयोग है। स्थानिक डेटा माइनिंग में, विश्लेषक भौगोलिक या स्थानिक डेटा का उपयोग व्यावसायिक खुफिया या अलग-अलग परिणाम बनाने के लिए करते हैं। भौगोलिक डेटा को प्रासंगिक और लाभकारी स्वरूपों में लाने के लिए इसके लिए विशिष्ट विधियों और संसाधनों की

  1. डेटा माइनिंग में आउटलेयर कितने प्रकार के होते हैं?

    डेटा माइनिंग में विभिन्न प्रकार के आउटलेयर हैं जो इस प्रकार हैं - वैश्विक आउटलेयर - किसी दिए गए डेटा सेट में, एक डेटा ऑब्जेक्ट एक वैश्विक बाहरी होता है यदि वह बाकी जानकारी सेट से अनिवार्य रूप से विचलित हो जाता है। वैश्विक आउटलेयर को बिंदु विसंगतियों के रूप में जाना जाता है, और सबसे आसान प्रकार के आ

  1. डेटा माइनिंग गोपनीयता-संरक्षण के तरीके क्या हैं?

    गोपनीयता-संरक्षण डेटा माइनिंग डेटा माइनिंग में गोपनीयता सुरक्षा के जवाब में डेटा माइनिंग अनुसंधान का एक अनुप्रयोग है। इसे प्राइवेसी-एन्हांस्ड या प्राइवेसी-सेंसिटिव डेटा माइनिंग कहा जाता है। यह बुनियादी संवेदनशील डेटा मूल्यों का खुलासा किए बिना सही डेटा माइनिंग परिणाम प्राप्त करने से संबंधित है। अधि