प्रूनिंग वह प्रक्रिया है जो निर्णय वृक्षों के आकार को कम करती है। यह पेड़ के आकार को परिभाषित करके या कम शक्ति का समर्थन करने वाले पेड़ के क्षेत्रों को समाप्त करके ओवरफिटिंग के जोखिम को कम कर सकता है। शोर या आउटलेयर के कारण प्रशिक्षण जानकारी में विसंगतियों का पालन करने वाली शाखाओं को ट्रिम करके प्रूनिंग का समर्थन करता है और पेड़ की सामान्यीकरण दक्षता को बढ़ाने वाली विधि में मूल पेड़ का समर्थन करता है।
विभिन्न तरीके आम तौर पर कम से कम विश्वसनीय विभागों को हटाने के लिए सांख्यिकीय उपायों का उपयोग करते हैं, जिसके परिणामस्वरूप अक्सर त्वरित वर्गीकरण होता है और स्वतंत्र परीक्षण डेटा को ठीक से वर्गीकृत करने के लिए पेड़ की क्षमता में सुधार होता है।
पेड़ों की छंटाई के दो तरीके हैं जो इस प्रकार हैं -
प्री-प्रूनिंग अप्रोच
प्री-प्रूनिंग दृष्टिकोण में, एक पेड़ को इसके निर्माण पर जल्दी काम करके "छंटनी" की जाती है (उदाहरण के लिए, किसी दिए गए नोड पर प्रशिक्षण नमूनों के सबसेट को आगे विभाजित या विभाजित नहीं करने का निर्धारण करके)। रुकने पर, नोड एक पत्ती में बदल जाता है। पत्ती सबसेट नमूनों या उन नमूनों के संभाव्यता वितरण के बीच सबसे आम वर्ग को प्रभावित कर सकती है।
एक पेड़ बनाते समय, सांख्यिकीय महत्व, x2, सूचना लाभ, आदि सहित उपायों का उपयोग विभाजन की उदारता बनाने के लिए किया जा सकता है। यदि किसी नोड पर नमूनों को विभाजित करने से विभाजन हो सकता है जो पूर्व-निर्दिष्ट सीमा से नीचे गिर जाता है, तो दिए गए उपसमुच्चय का विभाजन रोक दिया जाता है। एक उपयुक्त सीमा का चयन करने में समस्याएँ हैं। ऊंचे थ्रेशोल्ड के परिणामस्वरूप अधिक सरलीकृत पेड़ हो सकते हैं, जबकि कम थ्रेशोल्ड के परिणामस्वरूप बहुत कम सरलीकरण हो सकता है।
प्रूनिंग के बाद का तरीका
प्रूनिंग के बाद का दृष्टिकोण "पूरी तरह से विकसित" पेड़ से शाखाओं को हटा देता है। एक पेड़ के नोड को उसकी शाखाओं को हटाकर काट दिया जाता है। मूल्य जटिलता प्रूनिंग एल्गोरिदम पोस्ट-प्रूनिंग दृष्टिकोण का एक उदाहरण है। काटा हुआ नोड एक पत्ती में बदल जाता है और इसकी पिछली शाखाओं के बीच सबसे सामान्य वर्ग द्वारा लेबल किया जाता है।
ट्री में प्रत्येक गैर-पत्ती नोड के लिए, एल्गोरिथम अपेक्षित त्रुटि दर की गणना करता है जो तब प्रकट हो सकता है जब उस नोड पर सबट्री को छोटा कर दिया गया हो। इसके बाद, यदि नोड को काटा नहीं गया था, तो प्रदर्शित होने वाली अपेक्षित त्रुटि दर की गणना प्रत्येक शाखा के लिए त्रुटि दर का उपयोग करके की जाती है, जो प्रत्येक शाखा के साथ टिप्पणियों के आयाम के अनुसार भार द्वारा जुड़ी होती है। यदि नोड को काटने से उच्च अपेक्षित त्रुटि दर होती है, तो उपट्री संरक्षित होती है। इसलिए, इसे काट दिया जाता है।
तेजी से काटे गए पेड़ों का एक सेट बनाने के बाद, एक स्वतंत्र परीक्षण सेट प्रत्येक पेड़ की दक्षता का अनुमान लगा सकता है। अपेक्षित त्रुटि लागत को कम करने वाले निर्णय वृक्ष को प्राथमिकता दी जाती है।