Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

डेटा माइनिंग में आकलन के तरीके क्या हैं?


टेनफोल्ड क्रॉस-सत्यापन किसी विशेष डेटासेट पर सीखने की योजना की त्रुटि दर को मापने का मानक तरीका है; विश्वसनीय परिणामों के लिए, 10 गुना दस गुना क्रॉस-सत्यापन। लीव-वन-आउट क्रॉस-सत्यापन और बूटस्ट्रैप दो तरीके हैं।

एक-एक करके क्रॉस-सत्यापन छोड़ें

लीव-वन-आउट क्रॉस-सत्यापन खुले तौर पर n-गुना क्रॉस-सत्यापन है, जहां n डेटासेट में कई उदाहरण हैं। बदले में प्रत्येक उदाहरण को छोड़ दिया जाता है, और सीखने की योजना को शेष सभी उदाहरणों पर प्रशिक्षित किया जाता है। इसकी गणना शेष उदाहरण पर इसकी शुद्धता से की जाती है- तदनुसार सफलता या विफलता के लिए एक या शून्य। सभी n निर्णयों के परिणाम, डेटासेट के प्रत्येक समूह के लिए एक, औसत होते हैं, और वह औसत अंतिम त्रुटि अनुमान को परिभाषित करता है।

यह प्रक्रिया दो कारणों से दिलचस्प है। सबसे पहले, प्रत्येक मामले में प्रशिक्षण के लिए उच्चतम संभव मात्रा में रिकॉर्ड का उपयोग किया जा सकता है, जो संभवतः इस संभावना को बेहतर बनाता है कि क्लासिफायरियर एक प्रामाणिक है।

दूसरा, प्रक्रिया नियतात्मक है - कोई यादृच्छिक नमूनाकरण शामिल नहीं है। इसे 10 बार दोहराने या बिल्कुल भी दोहराने का कोई मतलब नहीं है। हर बार एक ही परिणाम प्राप्त होगा। इसके खिलाफ सेट उच्च कम्प्यूटेशनल लागत है क्योंकि पूरे सीखने के चरण को n बार निष्पादित किया जाना चाहिए और यह आमतौर पर उच्च डेटासेट के लिए संभव नहीं है।

बूटस्ट्रैप

दूसरी आकलन पद्धति जिसका हम वर्णन करते हैं, बूटस्ट्रैप, प्रतिस्थापन के साथ प्रतिचयन की सांख्यिकीय प्रक्रिया पर आधारित है। पहले, जब भी प्रशिक्षण या परीक्षण सेट बनाने के लिए डेटासेट से कोई नमूना लिया जाता था, तो उसे बिना बदले ही निकाला जाता था।

अधिकांश शिक्षण योजनाएं एक ही उदाहरण का दो बार उपयोग कर सकती हैं, और यदि यह प्रशिक्षण सेट में दो बार मौजूद है तो सीखने के परिणाम में फर्क पड़ता है। बूटस्ट्रैप का विचार एक प्रशिक्षण सेट बनाने के लिए प्रतिस्थापन के साथ डेटासेट का नमूना लेना है। हम रहस्यमय तरीके से एक विशेष प्रकार का वर्णन करेंगे (लेकिन एक कारण से जो जल्द ही स्पष्ट हो जाएगा) जिसे 0.632 बूटस्ट्रैप कहा जाता है।

इसके लिए, n इंस्टेंस के एक डेटासेट को n इंस्टेंस का एक अलग डेटासेट प्रदान करने के लिए, पुनर्स्थापना के साथ n बार सैंपल किया जाता है। क्योंकि इस दूसरे डेटासेट में कुछ तत्व (लगभग निश्चित रूप से) दोहराए जाएंगे, मूल डेटासेट में कुछ ऐसे उदाहरण होने चाहिए जिन्हें चुना नहीं गया है—हम इन्हें परीक्षण उदाहरणों के रूप में उपयोग करेंगे।

प्रशिक्षण सेट पर एक सीखने की प्रणाली को प्रशिक्षित करके और परीक्षण सेट पर इसकी त्रुटि की गणना करके प्राप्त आंकड़ा वास्तविक त्रुटि दर का निराशावादी अनुमान होगा क्योंकि प्रशिक्षण सेट, हालांकि इसका आकार n है, फिर भी इसमें केवल 63% उदाहरण हैं, जो तुलना में बहुत बड़ी बात नहीं है, उदाहरण के लिए, दस गुना क्रॉस-सत्यापन में उपयोग किए गए 90% के साथ।


  1. स्थानिक डेटा माइनिंग के लिए क्लस्टरिंग विधियाँ क्या हैं?

    क्लस्टर विश्लेषण आंकड़ों की एक शाखा है जिसका कई वर्षों से व्यापक रूप से अध्ययन किया गया है। इस तकनीक का उपयोग करने का लाभ यह है कि किसी भी पृष्ठभूमि ज्ञान, जैसे कि अवधारणा पदानुक्रम का उपयोग किए बिना दिलचस्प संरचनाओं या समूहों को सीधे डेटा से खोजा जा सकता है। PAM या CLARA जैसे आंकड़ों में उपयोग किए

  1. स्थानिक डेटा माइनिंग की मूल बातें क्या हैं?

    स्थानिक डेटा माइनिंग स्थानिक मॉडल के लिए डेटा माइनिंग का अनुप्रयोग है। स्थानिक डेटा माइनिंग में, विश्लेषक भौगोलिक या स्थानिक डेटा का उपयोग व्यावसायिक खुफिया या अलग-अलग परिणाम बनाने के लिए करते हैं। भौगोलिक डेटा को प्रासंगिक और लाभकारी स्वरूपों में लाने के लिए इसके लिए विशिष्ट विधियों और संसाधनों की

  1. डेटा माइनिंग गोपनीयता-संरक्षण के तरीके क्या हैं?

    गोपनीयता-संरक्षण डेटा माइनिंग डेटा माइनिंग में गोपनीयता सुरक्षा के जवाब में डेटा माइनिंग अनुसंधान का एक अनुप्रयोग है। इसे प्राइवेसी-एन्हांस्ड या प्राइवेसी-सेंसिटिव डेटा माइनिंग कहा जाता है। यह बुनियादी संवेदनशील डेटा मूल्यों का खुलासा किए बिना सही डेटा माइनिंग परिणाम प्राप्त करने से संबंधित है। अधि