Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

डेटा माइनिंग में वर्गीकरण और भविष्यवाणी से संबंधित विभिन्न मुद्दे क्या हैं?

<घंटा/>

निम्नलिखित पूर्व-प्रसंस्करण चरण हैं जिनका उपयोग वर्गीकरण या भविष्यवाणी चरण की सटीकता, प्रभावशीलता और मापनीयता को बढ़ावा देने के लिए डेटा के लिए किया जा सकता है जो इस प्रकार हैं -

  • डेटा सफाई - यह चौरसाई विधियों और लापता मूल्यों के संचालन का उपयोग करके शोर को खत्म करने या कम करने के लिए डेटा के पूर्व-प्रसंस्करण को परिभाषित करता है (उदाहरण के लिए, उस विशेषता के लिए सबसे आम तौर पर दिखने वाले मूल्य के साथ एक लापता मूल्य को बहाल करके, या स्थापित सर्वोत्तम संभावित मूल्य के साथ सांख्यिकी)। हालांकि विभिन्न वर्गीकरण एल्गोरिदम में शोर या लापता जानकारी के प्रबंधन के लिए कुछ संरचनाएं हैं, यह कदम सीखने के दौरान भ्रम को कम करने में सहायता कर सकता है।

  • प्रासंगिकता विश्लेषण - डेटा में विभिन्न विशेषताएं हैं जो वर्गीकरण या भविष्यवाणी कार्य के लिए अप्रासंगिक हो सकती हैं। उदाहरण के लिए, सप्ताह के उस दिन को रिकॉर्ड करना जिस दिन बैंक ऋण सॉफ्टवेयर भरा गया था, सॉफ्टवेयर की सफलता के लिए प्रासंगिक होना असंभव है। इसके अलावा, कुछ अलग विशेषताएँ बेमानी हो सकती हैं।

    इसलिए, सीखने की प्रक्रिया से कुछ अप्रासंगिक या निरर्थक विशेषताओं को हटाने के लिए डेटा पर प्रासंगिकता विश्लेषण लागू किया जा सकता है। मशीन लर्निंग में, इस चरण को फीचर सेलेक्शन कहा जाता है। इसमें ऐसी विशेषताएं हैं जो अन्यथा धीमा कर सकती हैं, और संभवतः सीखने के चरण को गुमराह कर सकती हैं।

    सही ढंग से, प्रासंगिकता विश्लेषण पर उपयोग किया जाने वाला समय, जब परिणामी "कम" सुविधा उपसमुच्चय से सीखने में उपयोग किए जाने वाले समय में डाला जाता है, और उस समय से कम होना चाहिए जो सुविधाओं के प्रारंभिक सेट से सीखने पर उपयोग किया जाता। इसलिए, इस तरह का विश्लेषण वर्गीकरण प्रभावशीलता और मापनीयता को बढ़ावा देने में मदद कर सकता है।

  • डेटा परिवर्तन - डेटा को बड़े स्तर के दृष्टिकोण के लिए सामान्यीकृत किया जा सकता है। इन लक्ष्यों के लिए अवधारणा पदानुक्रम का उपयोग किया जा सकता है। यह निरंतर-मूल्यवान विशेषताओं के लिए विशेष रूप से सहायक है। उदाहरण के लिए, विशेषता आय के गणितीय मूल्यों को निम्न, मध्यम और उच्च सहित असतत क्षेत्र में सामान्यीकृत किया जा सकता है। इसी तरह, नाममात्र-मूल्यवान विशेषताओं, जैसे कि सड़क, को शहर जैसे बड़े स्तर की अवधारणाओं के लिए सामान्यीकृत किया जा सकता है।

    चूंकि सामान्यीकरण प्रारंभिक प्रशिक्षण डेटा को छोटा करता है, इसलिए सीखने के दौरान कम इनपुट/आउटपुट संचालन शामिल किए जा सकते हैं। डेटा को भी सामान्यीकृत किया जा सकता है, खासकर जब तंत्रिका नेटवर्क या दूरी माप वाली तकनीकों का उपयोग सीखने के चरण में किया जाता है।

    सामान्यीकरण में किसी दिए गए विशेषता के लिए सभी मानों को स्केल करना शामिल है ताकि वे -1.0 से 1.0, या 0 से 1.0 सहित एक छोटे से निर्दिष्ट क्षेत्र के भीतर घट सकें। उदाहरण के लिए, दूरी माप लागू करने वाले इन दृष्टिकोणों में, यह मूल रूप से उच्च श्रेणियों (जैसे, आय) के साथ विशेषताओं से बच सकता है


  1. डेटा माइनिंग में टेक्स्ट माइनिंग के क्षेत्र क्या हैं?

    टेक्स्ट माइनिंग को टेक्स्ट एनालिसिस के रूप में भी जाना जाता है। यह सरल विश्लेषण के लिए असंरचित पाठ को संरचित डेटा में बदलने की प्रक्रिया है। टेक्स्ट माइनिंग नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) को लागू करता है, जिससे मशीनों को मानव भाषा जानने और इसे स्वचालित रूप से प्रोसेस करने में मदद मिलती है। इसे

  1. डेटा वेयरहाउस में सुरक्षा संबंधी समस्याएं क्या हैं?

    डेटा वेयरहाउसिंग एक दृष्टिकोण है जो आम तौर पर व्यवसाय को महत्वपूर्ण व्यावसायिक अंतर्दृष्टि देने के लिए कई स्रोतों से डेटा एकत्र करने और संभालने के लिए उपयोग किया जाता है। डेटा वेयरहाउस विशेष रूप से प्रबंधन निर्णयों का समर्थन करने के लिए डिज़ाइन किया गया है। सरल शब्दों में, डेटा वेयरहाउस एक डेटाबेस

  1. डेटा माइनिंग इंटरफेस क्या हैं?

    डेटा माइनिंग सांख्यिकीय और गणितीय तकनीकों सहित पैटर्न पहचान तकनीकों का उपयोग करके, रिपॉजिटरी में सहेजे गए डेटा की एक उच्च मात्रा के माध्यम से उपयोगी नए सहसंबंध, पैटर्न और प्रवृत्तियों को खोजने की प्रक्रिया है। यह अनपेक्षित संबंधों की खोज करने के लिए तथ्यात्मक डेटासेट का विश्लेषण है और डेटा स्वामी क