डिसीजन ट्री इंडक्शन की विशेषताएं क्या हैं?

<घंटा/>

डिसीजन ट्री इंडक्शन की विभिन्न विशेषताएं इस प्रकार हैं -

वर्गीकरण मॉडल के निर्माण के लिए निर्णय वृक्ष प्रेरण एक गैर-पैरामीट्रिक विधि है। दूसरे शब्दों में, वर्ग द्वारा संतुष्ट संभाव्यता वितरण के प्रकार और विभिन्न विशेषताओं के संबंध में इसे कुछ पिछली धारणाओं की आवश्यकता नहीं है।

यह पाया जा सकता है कि एक इष्टतम निर्णय वृक्ष एक एनपी-पूर्ण समस्या है। कई निर्णय वृक्ष एल्गोरिदम विशाल परिकल्पना स्थान में अपनी खोज का मार्गदर्शन करने के लिए अनुमानी-आधारित दृष्टिकोण का उपयोग करते हैं।

कम्प्यूटेशनल रूप से सस्ते निर्णय पेड़ों के निर्माण के लिए विभिन्न तकनीकों का विकास किया गया है, जिससे प्रशिक्षण सेट का आकार बहुत बड़ा होने पर भी जल्दी से मॉडल बनाना संभव हो जाता है। इसके अलावा, क्योंकि एक निर्णय वृक्ष विकसित किया गया है, परीक्षण डेटा को परिभाषित करना पूरी तरह से तेज़ है, ओ (डब्ल्यू) की सबसे खराब स्थिति जटिलता के साथ, जहां डब्ल्यू पेड़ की अधिकतम गहराई है।

निर्णय वृक्ष, विशेष रूप से छोटे आकार के पेड़, निष्पादित करने के लिए सहयोगी रूप से सरल होते हैं। पेड़ों की दक्षता भी कई डेटा सेटों के लिए कई वर्गीकरण विधियों से तुलनीय है।

निर्णय वृक्ष असतत-मूल्यवान कार्यों को सीखने के लिए एक अभिव्यंजक विवरण का समर्थन करते हैं। लेकिन वे बूलियन समस्याओं की एक विशिष्ट विधि के लिए अच्छी तरह से सामान्यीकरण नहीं करते हैं। एक उदाहरण समता फ़ंक्शन है, जिसका मान 0 (1) है, जब मान के साथ एक विषम (सम) कई बूलियन विशेषताएँ होती हैं।

निरर्थक विशेषताओं की उपस्थिति निर्णय वृक्षों की प्रभावशीलता को प्रभावित नहीं करती है। एक विशेषता बेमानी है यदि यह डेटा में एक अलग विशेषता के साथ शक्तिशाली रूप से सहसंबद्ध है। दो अनावश्यक विशेषताओं को विभाजित करने के लिए उपयोग नहीं किया जा सकता क्योंकि अन्य विशेषता का चयन किया गया है।

लेकिन अगर डेटा सेट में कई अप्रासंगिक विशेषताएँ शामिल हैं, यानी, ऐसी विशेषताएँ जो वर्गीकरण सेवा के लिए फायदेमंद नहीं हैं, तो कई अप्रासंगिक विशेषताओं को पेड़-बढ़ने की प्रक्रिया के दौरान गलती से चुना जा सकता है, जिसके परिणामस्वरूप निर्णय ट्री आवश्यकता से बड़ा होता है। फ़ीचर चयन तकनीक प्रीप्रोसेसिंग के दौरान अप्रासंगिक विशेषताओं को समाप्त करके निर्णय पेड़ों की सटीकता में सुधार करने में मदद कर सकती है।

चूंकि कई निर्णय ट्री एल्गोरिदम टॉप-डाउन, पुनरावर्ती विभाजन विधियों का उपयोग करते हैं, इसलिए एकाधिक डेटा छोटा हो जाता है क्योंकि यह पेड़ के नीचे जा सकता है। लीफ नोड्स पर, नोड्स के वर्ग विवरण के बारे में सांख्यिकीय रूप से महत्वपूर्ण निर्णय लेने के लिए कई डेटा बहुत छोटे हो सकते हैं। इसे डेटा विखंडन समस्या कहा जाता है। एक संभावित समाधान यह है कि जब एक से अधिक डेटा एक विशिष्ट सीमा से नीचे आ जाए तो अधिक विभाजन की अनुमति न दें।

निर्णय ट्री में एक सबट्री को कई बार दोहराया जा सकता है। यह निर्णय वृक्ष को आवश्यकता से अधिक कठिन और निष्पादित करने के लिए संभवतः अधिक जटिल बनाता है। निर्णय ट्री निष्पादन से विभिन्न स्थितियां बढ़ सकती हैं जो प्रत्येक आंतरिक नोड पर एकल विशेषता परीक्षण स्थिति पर निर्भर करती हैं।

कुछ डिसीजन ट्री एल्गोरिदम को डिवाइड-एंड-कॉनकर पार्टिशनिंग एप्रोच की आवश्यकता होती है, समान टेस्ट कंडीशन का उपयोग एट्रिब्यूट स्पेस के कई हिस्सों में किया जा सकता है, इसलिए सबट्री प्रतिकृति मुद्दों के लिए Ieding।