एक निर्णय वृक्ष एक प्रवाह-चार्ट-जैसी वृक्ष तंत्र है, जहां प्रत्येक आंतरिक नोड एक विशेषता पर एक परीक्षण इंगित करता है, प्रत्येक विभाग परीक्षण के परिणाम को परिभाषित करता है, और पत्ती नोड्स कक्षाओं या वर्ग वितरण का वर्णन करते हैं। पेड़ में सबसे बड़ा नोड रूट नोड होता है।
निर्णय वृक्ष के निर्माण के मुद्दों को पुनरावर्ती रूप से परिभाषित किया जा सकता है। सबसे पहले, रूट नोड पर रखने के लिए एक विशेषता का चयन करें, और प्रत्येक संभावित मान के लिए एक शाखा बनाएं। यह सेट किए गए उदाहरण को सबसेट में विभाजित करता है, विशेषता के प्रत्येक मान के लिए एक। प्रक्रिया को प्रत्येक शाखा के लिए पुनरावर्ती रूप से दोहराया जा सकता है, केवल उन उदाहरणों का उपयोग करके जो विभाग तक पहुंचते हैं। यदि नोड के कुछ उदाहरणों में समान वर्गीकरण होता है, तो ट्री के उस तत्व को बनाना बंद कर दें।
हम जिस शुद्धता माप का उपयोग करेंगे उसे सूचना कहा जाता है और इसे बिट्स नामक इकाइयों में मापा जाता है। पेड़ के प्रत्येक नोड के साथ संबद्ध, यह उस जानकारी की अपेक्षित मात्रा का प्रतिनिधित्व करता है जो यह निर्दिष्ट करने के लिए आवश्यक होगी कि एक नया उदाहरण हाँ या नहीं के रूप में वर्गीकृत किया जाना चाहिए, यह देखते हुए कि उदाहरण उस नोड तक पहुंच गए हैं।
प्रूनिंग वह प्रक्रिया है जो निर्णय वृक्षों के आकार को कम करती है। इसका उपयोग पेड़ के आकार का वर्णन करके या कम शक्ति प्रदान करने वाले पेड़ के क्षेत्रों को हटाकर ओवरफिटिंग के जोखिम को कम करने के लिए किया जाता है। प्रूनिंग उन विभागों को ट्रिम करके प्रदान करता है जो शोर या आउटलेयर के कारण प्रशिक्षण डेटा में विसंगतियों का पालन करते हैं और प्रारंभिक पेड़ को एक ऐसे तरीके से प्रदान करते हैं जो पेड़ की सामान्यीकरण प्रभावशीलता में सुधार करता है।
कम से कम विश्वसनीय विभागों को हटाने के लिए कई विधियां अक्सर सांख्यिकीय उपायों का उपयोग करती हैं, जिसके परिणामस्वरूप अक्सर तेजी से वर्गीकरण होता है और स्वतंत्र परीक्षण डेटा को सटीक रूप से वर्गीकृत करने के लिए पेड़ की क्षमता में वृद्धि होती है।
डिसीजन ट्री सीखने के लिए एल्गोरिदम
एल्गोरिदम - दी गई प्रशिक्षण जानकारी से निर्णय वृक्ष बनाएं।
इनपुट - असतत-मूल्यवान विशेषताओं द्वारा वर्णित प्रशिक्षण नमूने, नमूने; छात्रों की विशेषताओं का सेट, विशेषता-सूची।
आउटपुट - एक निर्णय वृक्ष।
विधि
-
नोड एन बनाएं;
-
यदि नमूने कुछ समान वर्ग के हैं, तो C इसलिए
-
एन को क्लास सी के साथ लेबल किए गए लीफ नोड के रूप में लौटाएं
-
यदि विशेषता-सूची शून्य है तो
-
नमूनों में सबसे लगातार वर्ग के साथ लेबल किए गए लीफ नोड के रूप में एन लौटाएं। // बहुमत मतदान
-
सबसे अधिक जानकारी प्राप्त करने वाली विशेषता-सूची के बीच की विशेषता, परीक्षण-विशेषता चुनें।
-
परीक्षण विशेषता के साथ लेबल नोड एन।
-
प्रत्येक ज्ञात मान के लिए एकi परीक्षण-विशेषता का // नमूनों को विभाजित करें।
-
स्थिति के लिए नोड N से एक शाखा विकसित करें test-attribute=ai ।
-
चलोi नमूनों में नमूनों का सेट हो जिसके लिए परीक्षण-विशेषता =ai ।
-
अगर si तब खाली है
-
इसे नमूने में सबसे आम वर्ग के साथ लेबल किए गए पत्ते से जोड़ा जा सकता है।
-
अन्यथा जनरेट डिसीजन ट्री द्वारा लौटाए गए नोड को संलग्न करें ( si , विशेषता-सूची - परीक्षण-विशेषता)