Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

नमूना-आधारित दृष्टिकोण क्या हैं?

<घंटा/>

वर्ग असंतुलन की समस्या से निपटने के लिए नमूनाकरण एक व्यापक रूप से इस्तेमाल की जाने वाली विधि है। नमूनाकरण की अवधारणा उदाहरणों के वितरण को बदलना है ताकि प्रशिक्षण सेट में दुर्लभ वर्ग को अच्छी तरह से परिभाषित किया जा सके। नमूनाकरण के लिए विभिन्न तकनीकें हैं जैसे कि अंडरसैंपलिंग, ओवरसैंपलिंग और दोनों दृष्टिकोणों का एक संकर। उदाहरण के लिए, एक डेटा सेट पर विचार करें जिसमें 100 सकारात्मक उदाहरण और 1000 नकारात्मक उदाहरण शामिल हैं।

अंडरसैंपलिंग की विधि में, सभी सकारात्मक उदाहरणों के साथ प्रशिक्षण सेट को तैयार करने के लिए 100 नकारात्मक उदाहरणों का एक यादृच्छिक नमूना चुना जाता है। इस पद्धति के साथ एक समस्या यह है कि प्रशिक्षण के लिए कुछ उपयोगी नकारात्मक उदाहरणों का चयन नहीं किया जा सकता है, जिसके परिणामस्वरूप इष्टतम मॉडल से कम होता है।

इस समस्या को दूर करने का तरीका यह है कि कई बार अंडरसैंपलिंग को लागू किया जाए और कई क्लासिफायर को समान आयर्निंग दृष्टिकोण के लिए प्रेरित किया जाए। फोकस्ड अंडरसैंपलिंग विधियों का उपयोग किया जा सकता है, जहां नमूनाकरण प्रक्रिया उन नकारात्मक उदाहरणों के बारे में एक सूचित विकल्प बनाती है जिन्हें हटाया जाना चाहिए, जैसे, निर्णय सीमा से बहुत दूर स्थित।

ओवरसैंपलिंग सकारात्मक उदाहरणों को दर्शाता है जब तक कि प्रशिक्षण सेट में सकारात्मक और नकारात्मक उदाहरणों की संख्या समान न हो। निर्णय ट्री सहित क्लासिफायरियर का उपयोग करके निर्णय सीमा के विकास पर ओवरसैंपलिंग का प्रभाव। सकारात्मक उदाहरण गलत वर्गीकृत है क्योंकि सकारात्मक और नकारात्मक उदाहरणों को स्वतंत्र करने के लिए एक नई निर्णय सीमा के गठन को मान्य करने के लिए पर्याप्त उदाहरण नहीं हैं।

लेकिन शोर की जानकारी के लिए, ओवरसैंपलिंग मॉडल ओवरफिटिंग उत्पन्न कर सकता है क्योंकि कई शोर उदाहरणों को कई बार दोहराया जा सकता है। ओवरसैंपलिंग प्रशिक्षण सेट में कुछ नया डेटा सम्मिलित नहीं करता है। सकारात्मक उदाहरणों की प्रतिकृति सीखने के एल्गोरिदम को मॉडल के विशिष्ट भागों को काटने से बचाती है जो उन क्षेत्रों को परिभाषित करती है जिनमें कुछ प्रशिक्षण उदाहरण (यानी, छोटे विघटन) शामिल होते हैं। अधिक सकारात्मक उदाहरण मॉडल निर्माण के लिए गणना समय में वृद्धि को भी प्रभावित करते हैं।

हाइब्रिड विधि को बहुसंख्यक वर्ग के अंडरसैंपलिंग और समान वर्ग वितरण को लागू करने के लिए दुर्लभ वर्ग की देखरेख की आवश्यकता होती है। यादृच्छिक या केंद्रित सबसैंपलिंग का उपयोग करके अंडरसैंपलिंग को लागू किया जा सकता है। वर्तमान सकारात्मक उदाहरणों की नकल करके या वर्तमान सकारात्मक उदाहरणों के पड़ोस में नए सकारात्मक उदाहरण तैयार करके ओवरसैंपलिंग किया जा सकता है।


  1. सी # में प्रतिबिंब क्या हैं?

    परावर्तन वस्तुओं का उपयोग रनटाइम पर प्रकार की जानकारी प्राप्त करने के लिए किया जाता है। एक चल रहे प्रोग्राम के मेटाडेटा तक पहुँच प्रदान करने वाली कक्षाएं System.Reflection नाम स्थान में हैं। सिस्टम का MemberInfo ऑब्जेक्ट। किसी वर्ग से जुड़ी विशेषताओं की खोज के लिए परावर्तन वर्ग को प्रारंभ करने की आ

  1. सी # में इंडेक्सर्स क्या हैं?

    एक अनुक्रमणिका किसी वस्तु को अनुक्रमित करने की अनुमति देता है जैसे कि एक सरणी। आइए सिंटैक्स देखें - element-type this[int index] {    // The get accessor.    get {       // return the value specified by index    }    // The set accessor.  

  1. सी # में नामस्थान क्या हैं?

    एक नाम स्थान नामों के एक सेट को दूसरे से अलग रखने का तरीका प्रदान करने के लिए है। नेमस्पेस की परिभाषा कीवर्ड नेमस्पेस से शुरू होती है और उसके बाद नेमस्पेस नाम इस प्रकार है - namespace namespace_name {    // code declarations } नेमस्पेस परिभाषित करें - namespace namespace_name {   &nb