डेटा माइनिंग में एक लगातार समस्या यह है कि एक आश्रित चर के मूल्य का पूर्वानुमान लगाने के लिए एक प्रतिगमन समीकरण का उपयोग किया जाता है, जब इस मॉडल में भविष्यवक्ताओं के रूप में चयन करने के लिए कई चर उपलब्ध हो सकते हैं।
एक और विचार इस उम्मीद में कई चरों को शामिल करने के पक्ष में है कि पहले से छिपा हुआ रिश्ता सामने आएगा। उदाहरण के लिए, एक कंपनी ने पाया कि जिन ग्राहकों ने कुर्सी और टेबल लेग के लिए एंटी-स्कफ प्रोटेक्टर खरीदे थे, उनमें क्रेडिट जोखिम कम था।
एक मॉडल में सभी संभावित चरों को फेंकने से पहले सावधानी बरतने के कई कारण हैं।
-
अपेक्षित भविष्यवाणियों के लिए भविष्यवाणियों का पूर्ण पूरक सेट करना अत्यधिक कीमत वाला या संभव नहीं हो सकता है।
-
यह कम भविष्यवक्ताओं की अधिक सही गणना करने में सक्षम हो सकता है (उदा., सर्वेक्षणों में)।
-
जितने अधिक भविष्यवक्ता, डेटा में गुम मूल्यों की संभावना उतनी ही अधिक होगी। यदि हम अनुपलब्ध मानों वाले रिकॉर्ड को हटाते हैं या आरोपित करते हैं, तो एकाधिक भविष्यवाणियां रिकॉर्ड हटाने या प्रतिरूपण की उच्च दर की ओर ले जाएंगी।
-
पारसीमोनी अच्छे मॉडलों की एक अनिवार्य विशेषता है। हम कुछ मापदंडों वाले मॉडलों में भविष्यवक्ताओं के प्रभाव के बारे में अधिक जानकारी प्राप्त करते हैं।
-
कई चरों वाले मॉडलों में बहुसंरेखण के कारण प्रतिगमन गुणांक के अनुमान अस्पष्ट होने की संभावना है। (मल्टीकोलिनियरिटी दो या दो से अधिक भविष्यवाणियों की उपस्थिति है जो परिणाम चर के साथ समान रैखिक संबंध साझा करते हैं।)
-
पारसी मॉडल के लिए प्रतिगमन गुणांक मजबूत हैं। अंगूठे का एक बहुत ही मोटा नियम है कि कई रिकॉर्ड n 5(p + 2) से बड़े हों, जहां p भविष्यवक्ताओं की संख्या है।
-
यह दिखाया जा सकता है कि भविष्यवक्ताओं का उपयोग करना जो परिणाम चर के साथ असंबंधित हैं, भविष्यवाणियों के विचरण को बढ़ाता है।
-
यह दिखाया जा सकता है कि परिणाम चर के साथ सहसंबद्ध भविष्यवक्ताओं को छोड़ने से पूर्वानुमानों की औसत त्रुटि (पूर्वाग्रह) बढ़ सकती है।
अंतिम दो बिंदु परिभाषित करते हैं कि बहुत कम और बहुत अधिक भविष्यवक्ताओं के बीच एक व्यापार-बंद है। सामान्य तौर पर, कुछ पूर्वाग्रहों को स्वीकार करने से भविष्यवाणियों में भिन्नता कम हो सकती है। यह पूर्वाग्रह-विचरण व्यापार-बंद कई भविष्यवाणियों के लिए विशेष रूप से आवश्यक है क्योंकि यह संभावना है कि मॉडल में ऐसे चर होते हैं जिनमें शोर के मानक विचलन के अनुरूप छोटे गुणांक होते हैं और अन्य चर के साथ कम से कम मध्यम सहसंबंध भी देखते हैं।
ऐसे चरों को छोड़ने से भविष्यवाणियों में सुधार होगा, क्योंकि यह भविष्यवाणी के विचरण को कम करता है। भविष्यवाणी और वर्गीकरण के लिए डेटा माइनिंग प्रक्रियाओं का इस प्रकार का पूर्वाग्रह-विचरण व्यापार-बंद एक अनिवार्य तत्व है।