डेटा माइनिंग में आकलन के तरीके क्या हैं?

टेनफोल्ड क्रॉस-सत्यापन किसी विशेष डेटासेट पर सीखने की योजना की त्रुटि दर को मापने का मानक तरीका है; विश्वसनीय परिणामों के लिए, 10 गुना दस गुना क्रॉस-सत्यापन। लीव-वन-आउट क्रॉस-सत्यापन और बूटस्ट्रैप दो तरीके हैं।

एक-एक करके क्रॉस-सत्यापन छोड़ें

लीव-वन-आउट क्रॉस-सत्यापन खुले तौर पर n-गुना क्रॉस-सत्यापन है, जहां n डेटासेट में कई उदाहरण हैं। बदले में प्रत्येक उदाहरण को छोड़ दिया जाता है, और सीखने की योजना को शेष सभी उदाहरणों पर प्रशिक्षित किया जाता है। इसकी गणना शेष उदाहरण पर इसकी शुद्धता से की जाती है- तदनुसार सफलता या विफलता के लिए एक या शून्य। सभी n निर्णयों के परिणाम, डेटासेट के प्रत्येक समूह के लिए एक, औसत होते हैं, और वह औसत अंतिम त्रुटि अनुमान को परिभाषित करता है।

यह प्रक्रिया दो कारणों से दिलचस्प है। सबसे पहले, प्रत्येक मामले में प्रशिक्षण के लिए उच्चतम संभव मात्रा में रिकॉर्ड का उपयोग किया जा सकता है, जो संभवतः इस संभावना को बेहतर बनाता है कि क्लासिफायरियर एक प्रामाणिक है।

दूसरा, प्रक्रिया नियतात्मक है - कोई यादृच्छिक नमूनाकरण शामिल नहीं है। इसे 10 बार दोहराने या बिल्कुल भी दोहराने का कोई मतलब नहीं है। हर बार एक ही परिणाम प्राप्त होगा। इसके खिलाफ सेट उच्च कम्प्यूटेशनल लागत है क्योंकि पूरे सीखने के चरण को n बार निष्पादित किया जाना चाहिए और यह आमतौर पर उच्च डेटासेट के लिए संभव नहीं है।

बूटस्ट्रैप

दूसरी आकलन पद्धति जिसका हम वर्णन करते हैं, बूटस्ट्रैप, प्रतिस्थापन के साथ प्रतिचयन की सांख्यिकीय प्रक्रिया पर आधारित है। पहले, जब भी प्रशिक्षण या परीक्षण सेट बनाने के लिए डेटासेट से कोई नमूना लिया जाता था, तो उसे बिना बदले ही निकाला जाता था।

अधिकांश शिक्षण योजनाएं एक ही उदाहरण का दो बार उपयोग कर सकती हैं, और यदि यह प्रशिक्षण सेट में दो बार मौजूद है तो सीखने के परिणाम में फर्क पड़ता है। बूटस्ट्रैप का विचार एक प्रशिक्षण सेट बनाने के लिए प्रतिस्थापन के साथ डेटासेट का नमूना लेना है। हम रहस्यमय तरीके से एक विशेष प्रकार का वर्णन करेंगे (लेकिन एक कारण से जो जल्द ही स्पष्ट हो जाएगा) जिसे 0.632 बूटस्ट्रैप कहा जाता है।

इसके लिए, n इंस्टेंस के एक डेटासेट को n इंस्टेंस का एक अलग डेटासेट प्रदान करने के लिए, पुनर्स्थापना के साथ n बार सैंपल किया जाता है। क्योंकि इस दूसरे डेटासेट में कुछ तत्व (लगभग निश्चित रूप से) दोहराए जाएंगे, मूल डेटासेट में कुछ ऐसे उदाहरण होने चाहिए जिन्हें चुना नहीं गया है—हम इन्हें परीक्षण उदाहरणों के रूप में उपयोग करेंगे।

प्रशिक्षण सेट पर एक सीखने की प्रणाली को प्रशिक्षित करके और परीक्षण सेट पर इसकी त्रुटि की गणना करके प्राप्त आंकड़ा वास्तविक त्रुटि दर का निराशावादी अनुमान होगा क्योंकि प्रशिक्षण सेट, हालांकि इसका आकार n है, फिर भी इसमें केवल 63% उदाहरण हैं, जो तुलना में बहुत बड़ी बात नहीं है, उदाहरण के लिए, दस गुना क्रॉस-सत्यापन में उपयोग किए गए 90% के साथ।