Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

डेटा वर्गीकरण क्या है?

<घंटा/>

वर्गीकरण एक डेटा माइनिंग दृष्टिकोण है जिसका उपयोग डेटा इंस्टेंस के लिए टीम सदस्यता की भविष्यवाणी करने के लिए किया जाता है। यह दो चरणों वाली प्रक्रिया है। पहले चरण में, डेटा वर्गों या दृष्टिकोणों के पूर्व निर्धारित सेट को परिभाषित करते हुए एक मॉडल बनाया जाता है। मॉडल को विशेषताओं द्वारा परिभाषित डेटाबेस टुपल्स पर विचार करके विकसित किया गया है।

प्रत्येक टपल को एक पूर्वनिर्धारित वर्ग से संबंधित माना जाता है, जैसा कि एक विशेषता द्वारा तय किया जाता है, जिसे क्लास लेबल विशेषता के रूप में जाना जाता है। वर्गीकरण के ढांचे में, डेटा टुपल्स को नमूने, उदाहरण या वस्तुओं के रूप में भी परिभाषित किया जाता है। मॉडल को विकसित करने के लिए विश्लेषण किए गए डेटा टुपल्स संयुक्त रूप से प्रशिक्षण डेटा सेट बनाते हैं। प्रशिक्षण सेट बनाने वाले एकल टुपल्स को प्रशिक्षण नमूने के रूप में परिभाषित किया जाता है और नमूना आबादी से आकस्मिक रूप से चुना जाता है।

क्योंकि प्रत्येक प्रशिक्षण नमूने का वर्ग लेबल समर्थित है, इस प्रक्रिया को पर्यवेक्षित शिक्षण भी कहा जाता है। अनुपयोगी शिक्षण में, जिसमें प्रशिक्षण नमूनों के वर्ग लेबल गुमनाम होते हैं, और सीखी जाने वाली कई कक्षाएं पहले से ज्ञात नहीं हो सकती हैं।

सीखा मॉडल वर्गीकरण नियमों, निर्णय वृक्षों या संख्यात्मक सूत्रों की संरचना में वर्णित है। उदाहरण के लिए, उपयोगकर्ता क्रेडिट डेटा का एक डेटाबेस दिया गया है, वर्गीकरण नियमों को उपयोगकर्ताओं को सर्वश्रेष्ठ या उचित क्रेडिट रेटिंग के रूप में पहचानने के लिए सीखा जा सकता है। नियमों का उपयोग भविष्य के डेटा नमूनों को वर्गीकृत करने और डेटाबेस सामग्री की अच्छी समझ का समर्थन करने के लिए किया जा सकता है।

होल्डआउट दृष्टिकोण एक सरल तकनीक है जो क्लास-लेबल नमूनों के परीक्षण सेट को लागू करती है। ये नमूने बेतरतीब ढंग से चुने गए हैं और प्रशिक्षण नमूनों से स्वायत्त हैं। किसी दिए गए परीक्षण सेट पर एक मॉडल की दक्षता परीक्षण सेट के नमूनों का प्रतिशत है जो मॉडल द्वारा उचित रूप से प्रतिबंधित हैं। प्रत्येक परीक्षण नमूने के लिए, प्रसिद्ध वर्ग लेबल को उस नमूने के लिए सीखे गए मॉडल के वर्ग पूर्वानुमान से अलग किया जाता है।

यदि मॉडल की दक्षता का आकलन प्रशिक्षण डेटा सेट पर निर्भर करता है, तो यह अनुमान आशावादी हो सकता है क्योंकि सीखा मॉडल जानकारी को ओवरफिट करने के लिए प्रभावित करता है (अर्थात्, इसमें प्रशिक्षण जानकारी की कुछ विशिष्ट विसंगतियां शामिल हो सकती हैं जो पूर्ण रूप से मौजूद नहीं हैं नमूना जनसंख्या)। इसलिए, एक परीक्षण सेट का उपयोग किया जाता है।

  • सीखना - प्रशिक्षण जानकारी का वर्गीकरण एल्गोरिथम द्वारा विश्लेषण किया जाता है। इसलिए, क्लास लेबल विशेषता एक क्रेडिट रेटिंग है, और सीखा मॉडल या क्लासिफायर एक वर्गीकरण नियम की संरचना में वर्णित है।

  • वर्गीकरण - वर्गीकरण नियमों की दक्षता को मापने के लिए परीक्षण डेटा का उपयोग किया जाता है। यदि दक्षता को स्वीकार्य माना जाता है, तो नियमों का उपयोग नए डेटा टुपल्स के वर्गीकरण के लिए किया जा सकता है।


  1. डेटा सेंटर क्या है?

    एक डेटा केंद्र, जिसे कभी-कभी डेटासेंटर . के रूप में लिखा जाता है (एक शब्द), एक ऐसी सुविधा को दिया गया नाम है जिसमें बड़ी संख्या में कंप्यूटर सर्वर और संबंधित उपकरण होते हैं। एक डेटा सेंटर को कंप्यूटर रूम के रूप में सोचें जो इसकी दीवारों को बढ़ा देता है। वे किसी भी तरह का डेटा स्टोर कर सकते हैं, चाह

  1. STREAM क्या है?

    STREAM एक व्यक्तिगत-पास, निरंतर तत्व सन्निकटन एल्गोरिथ्म है जो k- माध्यिका समस्या के लिए तैयार किया गया था। k-माध्यमों की समस्या N डेटा बिंदुओं को k समूहों या समूहों में क्लस्टर करना है जैसे कि बिंदुओं और क्लस्टर केंद्र के बीच योग चुकता त्रुटि (SSQ) जिसे उन्हें सौंपा गया है, कम से कम है। विचार एक ही

  1. सूचना सुरक्षा में सूचना वर्गीकरण क्या है?

    सूचना वर्गीकरण डेटा को प्रासंगिक श्रेणियों में वर्गीकृत करने की प्रक्रिया है। उदाहरण के लिए, एक कंपनी के अंदर, जनसंपर्क विभाग के दस्तावेजों के साथ वित्तीय दस्तावेज विविध नहीं होने चाहिए। इसके बजाय, उन्हें स्वतंत्र फ़ोल्डरों में रखा जाना चाहिए, और उन जिम्मेदार व्यक्तियों तक सीमित होना चाहिए जिन्हें न