पूर्वाग्रह-विचरण अपघटन क्या है?

<घंटा/>

कई परिकल्पनाओं में शामिल होने के प्रभाव को एक सैद्धांतिक उपकरण के माध्यम से जांचा जा सकता है जिसे पूर्वाग्रह-विचरण अपघटन कहा जाता है। मान लीजिए कि इसमें समान आकार के अलग-अलग प्रशिक्षण सेटों की अनंत संख्या हो सकती है और उनका उपयोग अनंत संख्या में क्लासिफायर बनाने के लिए किया जा सकता है।

एक परीक्षण उदाहरण सभी क्लासिफायर द्वारा माना जाता है, और एक व्यक्तिगत उत्तर थोक वोट द्वारा तय किया जाता है। इस स्थिति में, त्रुटियाँ दिखाई देंगी क्योंकि कोई भी सीखने का डिज़ाइन सही नहीं है। त्रुटि दर इस बात पर आधारित होगी कि मशीन सीखने का तरीका समस्या को कितनी अच्छी तरह जोड़ता है, और रिकॉर्ड में शोर का प्रभाव भी होता है, जिसे शायद सीखा नहीं जा सकता।

मान लीजिए कि अलग-अलग चुने गए परीक्षण उदाहरणों की अनंत संख्या पर लिंक किए गए क्लासिफायरियर की त्रुटि के औसत से अपेक्षित त्रुटि दर की गणना की गई थी। एक विशिष्ट लर्निंग एल्गोरिदम के लिए त्रुटि दर को सीखने की समस्या के लिए इसके पूर्वाग्रह के रूप में जाना जाता है और यह गणना करता है कि सीखने की विधि समस्या को कितनी अच्छी तरह जोड़ती है।

यह एक लर्निंग एल्गोरिदम की "लगातार" त्रुटि की गणना करता है जिसे अनंत संख्या में प्रशिक्षण समूहों को ध्यान में रखकर भी हटाया नहीं जा सकता है। व्यावहारिक स्थितियों में इसकी गणना बिल्कुल नहीं की जा सकती है; इसे केवल अनुमानित किया जा सकता है।

एक सीखे हुए मॉडल में त्रुटि का दूसरा स्रोत उपयोग किए गए विशिष्ट प्रशिक्षण सेट से उपजा है, जो आवश्यक रूप से सीमित है और इसलिए उदाहरणों की वास्तविक आबादी का पूरी तरह से प्रतिनिधि नहीं है।

दिए गए आकार के सभी संभावित प्रशिक्षण समूहों और सभी संभावित परीक्षण सेटों पर त्रुटि के इस तत्व का अपेक्षित मूल्य, उस मुद्दे के लिए सीखने की विधि के विचरण के रूप में जाना जाता है। एक क्लासिफायरियर की पूर्ण अपेक्षित त्रुटि कुल पूर्वाग्रह और विचरण से निर्मित होती है-यह पूर्वाग्रह-विचरण अपघटन है।

पूर्वाग्रह-विचरण अपघटन को वर्ग त्रुटि के आधार पर गणितीय भविष्यवाणी के संदर्भ में सीखा गया था, जहां इसे लागू करने का एक व्यापक रूप से स्वीकृत तरीका है। हालांकि, वर्गीकरण के लिए स्थिति स्पष्ट नहीं है, और विभिन्न प्रतिस्पर्धी अपघटनों का सुझाव दिया गया है।

बैगिंग किसी दिए गए प्रशिक्षण सेट का उपयोग करके पहले से परिभाषित चरण का अनुकरण करके सीखने के दृष्टिकोण की अस्थिरता को कम करने का प्रयास करता है। हर बार एक नए, अलग प्रशिक्षण डेटासेट का नमूना लेने के बजाय, प्रारंभिक प्रशिक्षण डेटा को कुछ उदाहरणों को हटाकर और दूसरों को कॉपी करके बदल दिया जाता है। समान आकार का एक नया बनाने के लिए, प्रारंभिक डेटासेट से, बहाली के साथ, यादृच्छिक रूप से उदाहरणों का नमूना लिया जाता है। यह नमूना प्रक्रिया अनिवार्य रूप से कुछ उदाहरणों की प्रतिलिपि बनाती है और अन्य को हटा देती है।

पुन:नमूनाकरण द्वारा बनाए गए डेटासेट एक दूसरे से भिन्न होते हैं लेकिन स्वतंत्र नहीं होते क्योंकि वे एक डेटासेट पर स्थापित होते हैं। हालांकि, यह पता चला है कि बैगिंग एक संयुक्त मॉडल बनाता है जो प्रारंभिक प्रशिक्षण डेटा से अलग-अलग मॉडल निर्माण की तुलना में काफी बेहतर तरीके से लागू होता है, और अनिवार्य रूप से कभी भी बदतर नहीं होता है।