बैगिंग
बैगिंग को बूटस्ट्रैप एग्रीगेशन के रूप में भी जाना जाता है। यह पहनावा सीखने की विधि है जिसका उपयोग आमतौर पर शोर वाले डेटासेट के भीतर विचरण को कम करने के लिए किया जाता है। बैगिंग में, प्रशिक्षण सेट में डेटा का एक यादृच्छिक नमूना प्रतिस्थापन के साथ चुना जाता है जिसका अर्थ है कि एकल डेटा बिंदुओं को एक से अधिक बार चुना जा सकता है।
कई डेटा नमूने उत्पन्न होने के बाद, इन कमजोर मॉडलों को अलग से प्रशिक्षित किया जाता है और कार्य प्रतिगमन या वर्गीकरण के तत्व पर निर्भर करता है। उदाहरण के लिए, उन पूर्वानुमानों का औसत अधिक कुशल अनुमान देता है।
रैंडम फ़ॉरेस्ट बैगिंग पर एक विस्तार है। अभिलेखों के यादृच्छिक उपसमुच्चय की भविष्यवाणी करने में एक और कदम लगता है। यह पेड़ों को विकसित करने के लिए सभी सुविधाओं का उपयोग करने के बजाय सुविधाओं का एक यादृच्छिक चयन भी बनाता है। जब इसमें कई यादृच्छिक पेड़ हो सकते हैं, तो इसे यादृच्छिक वन के रूप में जाना जाता है।
वित्तीय बाजार में गहन शिक्षण मॉडल के साथ बैगिंग का भी लाभ उठाया गया है, धोखाधड़ी का पता लगाने, क्रेडिट जोखिम गणना और विकल्प मूल्य निर्धारण मुद्दों जैसे महत्वपूर्ण कार्यों को स्वचालित करता है।
यह शोध दर्शाता है कि ऋण चूक जोखिम पैदा करने के लिए कई मशीन लर्निंग तकनीकों के बीच कैसे लाभ उठाया गया है। यह अध्ययन समझता है कि कैसे बैगिंग बैंकिंग और वित्तीय संस्थानों के भीतर क्रेडिट कार्ड धोखाधड़ी से बचकर जोखिम को कम करने का समर्थन करता है।
बूस्टिंग
भविष्यवाणियों का एक सेट बनाने के लिए बूस्टिंग एक और पहनावा प्रक्रिया है। दूसरे शब्दों में, यह लगातार पेड़ों को फिट कर सकता है, आम तौर पर यादृच्छिक नमूने, और हर चरण में, उद्देश्य पिछले पेड़ों से शुद्ध त्रुटि को हल करना है।
बूस्टिंग का उपयोग आमतौर पर पर्यवेक्षित शिक्षण तकनीक में पूर्वाग्रह और भिन्नता को कम करने के लिए किया जाता है। यह एक एल्गोरिथ्म के परिवार को परिभाषित करता है जो कमजोर शिक्षार्थियों (आधार शिक्षार्थियों) को मजबूत शिक्षार्थियों में बदल देता है। कमजोर शिक्षार्थी वे क्लासिफायर होते हैं जो वास्तविक वर्गीकरण के साथ कुछ हद तक ही सही होते हैं, जबकि मजबूत शिक्षार्थी वे क्लासिफायर होते हैं जो वास्तविक वर्गीकरण से अच्छी तरह से जुड़े होते हैं।
आइए देखते हैं बैगिंग और बूस्टिंग के बीच तुलना।
बैगिंग | बूस्टिंग |
---|---|
विचरण कम करने का उद्देश्य, पूर्वाग्रह नहीं। | पूर्वाग्रह को कम करने का उद्देश्य, भिन्नता नहीं। |
प्रत्येक मॉडल स्वतंत्र रूप से बनाया गया है। | नए मॉडल पहले विकसित मॉडल के कार्यान्वयन से प्रभावित होते हैं। |
यह समान प्रकार के पूर्वानुमानों को जोड़ने का सबसे सरल तरीका है। | यह कई प्रकार के पूर्वानुमानों को जोड़ने की एक विधि है। |
बैगिंग ओवरफिटिंग की समस्या से निपटने की कोशिश करता है। | बूस्टिंग पूर्वाग्रह को कम करने की कोशिश करता है। |
कई प्रशिक्षण डेटा सबसेट यादृच्छिक रूप से संपूर्ण प्रशिक्षण डेटासेट से प्रतिस्थापन के साथ तैयार किए गए हैं। | प्रत्येक नए सबसेट में वे घटक शामिल होते हैं जिन्हें पिछले मॉडल द्वारा गलत वर्गीकृत किया गया था। |
बैगिंग से ओवरफिटिंग की समस्या का समाधान हो सकता है। | बूस्टिंग ओवर-फिटिंग समस्या को बढ़ा सकता है। |