C5 प्रूनिंग एल्गोरिथम क्या है?

<घंटा/>

C5 डिसीजन-ट्री एल्गोरिथम का वर्तमान संस्करण है जिसे ऑस्ट्रेलियाई शोधकर्ता, जे. रॉस क्विनलान कई वर्षों से विकसित और परिष्कृत कर रहे हैं। एक पूर्व संस्करण, ID3, 1986 में स्थापित, मशीन सीखने के क्षेत्र में प्रभावशाली था और इसके उत्तराधिकारियों का उपयोग कई वाणिज्यिक डेटा खनन सेवाओं में किया जाता है।

C5 द्वारा बढ़ाए गए पेड़ CART द्वारा सुधारे गए पेड़ों के समान हैं। CART की तरह, C5 एल्गोरिथ्म पहले एक ओवरफिट ट्री में सुधार करता है और फिर एक अधिक गतिशील मॉडल बनाने के लिए इसे वापस काट देता है। प्रूनिंग विधि जटिल है, लेकिन C5 उम्मीदवार उप-वृक्षों के बीच से चयन करने के लिए सत्यापन सेट का उपयोग नहीं करता है।

पेड़ को बढ़ाने के लिए उपयोग किए जाने वाले समान डेटा का उपयोग यह निर्धारित करने के लिए भी किया जाता है कि पेड़ को कैसे काटा जाना चाहिए। यह अकादमिक दुनिया में एल्गोरिथम के आधार को प्रतिबिंबित कर सकता है, जहां पूर्व में, विश्वविद्यालय के शोधकर्ताओं को प्रशिक्षण सेट के लिए उपयोग करने के लिए वास्तविक रिकॉर्ड की पर्याप्त मात्रा में अपना हाथ प्राप्त करने में एक जटिल समय था। तदनुसार, उन्होंने अपने खराब डेटासेट से डेटा की कुछ बूंदों को अंतिम रूप देने का प्रयास करने में बहुत समय और प्रयास लगाया-एक ऐसी समस्या जो व्यापार जगत में डेटा खनिकों को नहीं दिखती।

C5 प्रत्येक नोड पर त्रुटि दर निर्धारित करके पेड़ की छंटाई करता है और यह मानते हुए कि वास्तविक त्रुटि दर काफी खराब है। यदि किसी नोड पर N रिकॉर्ड दिखाई देते हैं, और उनमें से E को गलत तरीके से परिभाषित किया गया है, तो उस नोड पर त्रुटि दर E/N है।

C5 को सांख्यिकीय नमूने के साथ एक सादृश्य की आवश्यकता है ताकि एक पत्ती पर देखे जाने की सबसे खराब त्रुटि लागत का अनुमान लगाया जा सके। सादृश्य परीक्षण के अनुक्रम के परिणामों को परिभाषित करने के रूप में पत्ती पर जानकारी के बारे में सोचकर संचालित होता है, प्रत्येक के दो संभावित परिणामों में से एक हो सकता है।

C5 मानता है कि प्रशिक्षण रिकॉर्ड पर देखी गई त्रुटियों की संख्या इस सीमा का निचला छोर है, और अनदेखी रिकॉर्ड पर लीफ की पूर्वानुमानित त्रुटि लागत, E/N प्राप्त करने के लिए उच्च अंत को प्रतिस्थापित करता है। नोड जितना कम होगा, त्रुटि लागत उतनी ही बड़ी होगी। जब एक नोड में कई त्रुटियों का उच्च-स्तरीय अनुमान उसके बच्चों की त्रुटियों के अनुमान से कम होता है, इसलिए बच्चों को काट दिया जाता है।

एक मॉडल का मुख्य लक्ष्य पहले के अनदेखे डेटा पर लगातार भविष्यवाणियां करना है। कुछ नियम जो उस लक्ष्य को प्राप्त नहीं कर सकते हैं उन्हें मॉडल से हटा दिया जाना चाहिए। कुछ डेटा माइनिंग टूल ग्राहक को निर्णय ट्री को मैन्युअल रूप से काटने में सक्षम बनाता है।

यह एक सहायक सुविधा है, लेकिन यह डेटा माइनिंग सॉफ़्टवेयर के लिए आगे देख सकता है जो एक विकल्प के रूप में स्वचालित गतिशील-आधारित छंटाई का समर्थन करता है। इस तरह के आवेदन के लिए "सत्यापन सेट परिणामों का वितरण प्रशिक्षण समूह परिणामों के वितरण से अलग दृश्यों के वितरण से इनकार करने के लिए एक कम व्यक्तिपरक तत्व होना आवश्यक है।