Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

भविष्यवाणियों की संख्या को कैसे कम करें?

<घंटा/>

डेटा माइनिंग में एक लगातार समस्या यह है कि एक आश्रित चर के मूल्य का पूर्वानुमान लगाने के लिए एक प्रतिगमन समीकरण का उपयोग किया जाता है, जब इस मॉडल में भविष्यवक्ताओं के रूप में चयन करने के लिए कई चर उपलब्ध हो सकते हैं।

एक और विचार इस उम्मीद में कई चरों को शामिल करने के पक्ष में है कि पहले से छिपा हुआ रिश्ता सामने आएगा। उदाहरण के लिए, एक कंपनी ने पाया कि जिन ग्राहकों ने कुर्सी और टेबल लेग के लिए एंटी-स्कफ प्रोटेक्टर खरीदे थे, उनमें क्रेडिट जोखिम कम था।

एक मॉडल में सभी संभावित चरों को फेंकने से पहले सावधानी बरतने के कई कारण हैं।

  • अपेक्षित भविष्यवाणियों के लिए भविष्यवाणियों का पूर्ण पूरक सेट करना अत्यधिक कीमत वाला या संभव नहीं हो सकता है।

  • यह कम भविष्यवक्ताओं की अधिक सही गणना करने में सक्षम हो सकता है (उदा., सर्वेक्षणों में)।

  • जितने अधिक भविष्यवक्ता, डेटा में गुम मूल्यों की संभावना उतनी ही अधिक होगी। यदि हम अनुपलब्ध मानों वाले रिकॉर्ड को हटाते हैं या आरोपित करते हैं, तो एकाधिक भविष्यवाणियां रिकॉर्ड हटाने या प्रतिरूपण की उच्च दर की ओर ले जाएंगी।

  • पारसीमोनी अच्छे मॉडलों की एक अनिवार्य विशेषता है। हम कुछ मापदंडों वाले मॉडलों में भविष्यवक्ताओं के प्रभाव के बारे में अधिक जानकारी प्राप्त करते हैं।

  • कई चरों वाले मॉडलों में बहुसंरेखण के कारण प्रतिगमन गुणांक के अनुमान अस्पष्ट होने की संभावना है। (मल्टीकोलिनियरिटी दो या दो से अधिक भविष्यवाणियों की उपस्थिति है जो परिणाम चर के साथ समान रैखिक संबंध साझा करते हैं।)

  • पारसी मॉडल के लिए प्रतिगमन गुणांक मजबूत हैं। अंगूठे का एक बहुत ही मोटा नियम है कि कई रिकॉर्ड n 5(p + 2) से बड़े हों, जहां p भविष्यवक्ताओं की संख्या है।

  • यह दिखाया जा सकता है कि भविष्यवक्ताओं का उपयोग करना जो परिणाम चर के साथ असंबंधित हैं, भविष्यवाणियों के विचरण को बढ़ाता है।

  • यह दिखाया जा सकता है कि परिणाम चर के साथ सहसंबद्ध भविष्यवक्ताओं को छोड़ने से पूर्वानुमानों की औसत त्रुटि (पूर्वाग्रह) बढ़ सकती है।

अंतिम दो बिंदु परिभाषित करते हैं कि बहुत कम और बहुत अधिक भविष्यवक्ताओं के बीच एक व्यापार-बंद है। सामान्य तौर पर, कुछ पूर्वाग्रहों को स्वीकार करने से भविष्यवाणियों में भिन्नता कम हो सकती है। यह पूर्वाग्रह-विचरण व्यापार-बंद कई भविष्यवाणियों के लिए विशेष रूप से आवश्यक है क्योंकि यह संभावना है कि मॉडल में ऐसे चर होते हैं जिनमें शोर के मानक विचलन के अनुरूप छोटे गुणांक होते हैं और अन्य चर के साथ कम से कम मध्यम सहसंबंध भी देखते हैं।

ऐसे चरों को छोड़ने से भविष्यवाणियों में सुधार होगा, क्योंकि यह भविष्यवाणी के विचरण को कम करता है। भविष्यवाणी और वर्गीकरण के लिए डेटा माइनिंग प्रक्रियाओं का इस प्रकार का पूर्वाग्रह-विचरण व्यापार-बंद एक अनिवार्य तत्व है।


  1. छवि फ़ाइल पर आकार कैसे कम करें

    पहले, मैंने एक्सप्लोरर में बिल्ट-इन ईमेल विकल्प का उपयोग करके या विंडोज के लिए इमेज रिसाइज़र नामक डेस्कटॉप प्रोग्राम का उपयोग करके एक छवि फ़ाइल के आकार को कम करने के बारे में एक लेख लिखा था। ये अच्छे विकल्प हैं, लेकिन इमेज को ऑप्टिमाइज़ करने के और भी कई तरीके हैं। साथ ही, बहुत सी वेबसाइटें आपको पेंट

  1. Excel में राउंडडाउन फ़ंक्शन का उपयोग कैसे करें

    राउंडडाउन फ़ंक्शन Microsoft Excel में एक गणित और त्रिकोणमिति फ़ंक्शन है , और इसका उद्देश्य किसी संख्या को शून्य की ओर गोल करना है। राउंडडाउन फ़ंक्शन का सूत्र राउंडडाउन (संख्या, संख्या-अंक) है। राउंडडाउन फ़ंक्शन का सिंटैक्स नीचे दिया गया है: संख्या :कोई भी वास्तविक संख्या जिसे आप पूर्णांकित करना चाह

  1. एक्सेल में किसी संख्या का वर्गमूल कैसे ज्ञात करें?

    माइक्रोसॉफ्ट एक्सेल जटिल गणना करने के लिए एक शक्तिशाली उपकरण है। यदि आप एक्सेल पर काम करते हैं, तो आप लगभग हर दिन गणितीय संचालन करते हुए आ सकते हैं। कभी-कभी, हमें एक्सेल में सरल गणना करने में समस्याओं का सामना करना पड़ता है और एक्सेल में वर्गमूल खोजना उनमें से एक है। इसलिए, इस लेख में, मैं आपको किसी