Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

यादृच्छिक वन क्या हैं?

<घंटा/>

रैंडम फ़ॉरेस्ट, विशेष रूप से डिसीजन ट्री क्लासिफ़ायर के लिए डिज़ाइन किए गए एसेम्बल अप्रोच का एक वर्ग है। यह कई निर्णय वृक्षों द्वारा की गई भविष्यवाणियों को एकीकृत करता है, जहां प्रत्येक पेड़ यादृच्छिक वैक्टर के एक अलग सेट के मूल्यों के आधार पर बनाया जाता है।

AdaBoost में उपयोग की जाने वाली अनुकूली विधियों के विपरीत, यादृच्छिक वैक्टर एक निरंतर संभाव्यता वितरण से उत्पन्न होते हैं, जहां संभाव्यता वितरण उन उदाहरणों को लक्षित करने के लिए विविध है जिन्हें वर्गीकृत करना मुश्किल है।

बैगिंग के लिए निर्णय पेड़ों की आवश्यकता होती है, यादृच्छिक वनों का एक निश्चित मामला है, जहां प्रारंभिक प्रशिक्षण सेट से बहाली के साथ, यादृच्छिक रूप से एन नमूनों का चयन करके मॉडल-निर्माण प्रक्रिया में यादृच्छिकता डाली जाती है। बैगिंग को पूरे मॉडल-निर्माण चरण के दौरान अपने बूटस्ट्रैप किए गए नमूने बनाने के लिए समान समान संभाव्यता वितरण की आवश्यकता होती है।

प्रत्येक निर्णय वृक्ष को एक यादृच्छिक वेक्टर की आवश्यकता होती है जो कुछ निरंतर संभाव्यता वितरण से उत्पन्न होता है। एक यादृच्छिक वेक्टर को कई तरह से पेड़ उगाने की प्रक्रिया में एकीकृत किया जा सकता है। पहली विधि निर्णय वृक्ष के प्रत्येक नोड पर विभाजित करने के लिए यादृच्छिक रूप से F इनपुट सुविधाओं का चयन करना है।

नतीजतन, सभी सुलभ सुविधाओं की जांच करने के बजाय, इन चयनित सुविधाओं से नोड को विभाजित करने का निर्णय लिया जाता है। बिना किसी छंटाई के पेड़ पूरी तरह से विकसित हो जाता है। यह आने वाले पेड़ में मौजूद पूर्वाग्रह को कम करने में मदद कर सकता है।

क्योंकि पेड़ बनाए गए हैं, भविष्यवाणियां बहुसंख्यक मतदान डिजाइन का उपयोग करके जुड़ी हुई हैं। इस दृष्टिकोण को वन-आरएल कहा जाता है, जहां आरआई यादृच्छिक इनपुट चयन को परिभाषित करता है। यह यादृच्छिकता में सुधार कर सकता है, वन-आरआई के लिए बूटस्ट्रैप नमूने बनाने के लिए बैगिंग का उपयोग किया जा सकता है।

यादृच्छिक वनों का स्थायित्व और सहसंबंध F के आकार पर आधारित हो सकता है। यदि F पर्याप्त रूप से छोटा है, तो पेड़ों का प्रभाव कम सहसंबद्ध हो जाता है। दूसरे शब्दों में, ट्री क्लासिफायर की ताकत अधिक संख्या में सुविधाओं के साथ बढ़ाने के लिए प्रभावित करती है, F.

यदि कई मूल विशेषताएं d बहुत छोटी हैं, इसलिए निर्णय पेड़ों के निर्माण के लिए यादृच्छिक सुविधाओं के एक अलग सेट का चयन करना जटिल है। फीचर स्पेस को बढ़ाने का एक तरीका इनपुट फीचर्स का लीनियर सेट बनाना है। विशेष रूप से, प्रत्येक नोड पर, इनपुट सुविधाओं के एल को यादृच्छिक रूप से चुनकर एक नई सुविधा बनाई जाती है।

[-1, 1] की सीमा में एक समान वितरण से बनाए गए गुणांकों का उपयोग करके इनपुट सुविधाओं को रैखिक रूप से जोड़ा जाता है। प्रत्येक नोड पर, इस तरह के बेतरतीब ढंग से संयुक्त नई सुविधाओं का F बनाया जाता है, और उनमें से सर्वश्रेष्ठ को अंततः नोड को विभाजित करने के लिए चुना जाता है। इस दृष्टिकोण को वन-आरसी कहा जाता है।


  1. C# में C++ फीचर्स क्या गायब हैं?

    C# एक सरल, आधुनिक, सामान्य-उद्देश्य, ऑब्जेक्ट-ओरिएंटेड प्रोग्रामिंग भाषा है जिसे Microsoft द्वारा एंडर्स हेजल्सबर्ग के नेतृत्व में अपनी .NET पहल के तहत विकसित किया गया है। C++ एक मध्यम-स्तरीय प्रोग्रामिंग भाषा है, जिसे 1979 में बेल लैब्स में बर्जने स्ट्रॉस्ट्रुप द्वारा विकसित किया गया था। C++ विभिन

  1. सी # में नामस्थान क्या हैं?

    एक नाम स्थान नामों के एक सेट को दूसरे से अलग रखने का तरीका प्रदान करने के लिए है। नेमस्पेस की परिभाषा कीवर्ड नेमस्पेस से शुरू होती है और उसके बाद नेमस्पेस नाम इस प्रकार है - namespace namespace_name {    // code declarations } नेमस्पेस परिभाषित करें - namespace namespace_name {   &nb

  1. जावा में C++ कौन-सी विशेषताएँ अनुपलब्ध हैं?

    ऐसी कई विशेषताएं हैं जो सी ++ में देखी जा सकती हैं लेकिन जावा में नहीं। उनमें से कुछ को नीचे सूचीबद्ध किया गया है - जावा में कोई अहस्ताक्षरित इंट विकल्प नहीं है जावा में कोई विनाशक नहीं है और साथ ही हटाएं क्योंकि कचरा संग्रहकर्ता इस ऑपरेशन को करता है। जावा में कोई मित्र वर्ग या मित्र कार्य