Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

k-NN एल्गोरिथम के क्या लाभ हैं?

<घंटा/>

एक k-निकटतम-पड़ोसी एल्गोरिथ्म एक वर्गीकरण दृष्टिकोण है जो वर्ग सदस्यता (Y) और भविष्यवक्ताओं X1 के बीच संबंध की संरचना के बारे में धारणाएं नहीं बनाता है। , एक्स<उप>2 ,…. एक्स<उप>एन

यह एक गैर-पैरामीट्रिक दृष्टिकोण है क्योंकि इसमें रेखीय प्रतिगमन में दिखाए गए रैखिक रूप सहित, एक दिखावा फ़ंक्शन रूप में पैरामीटर का अनुमान शामिल नहीं है। यह विधि डेटासेट में डेटा के भविष्यवक्ता मूल्यों के बीच समानता से डेटा खींचती है।

के-एनएन विधियों का लाभ उनकी अखंडता और पैरामीट्रिक मान्यताओं की आवश्यकता है। एक विशाल प्रशिक्षण सेट की उपस्थिति में, ये दृष्टिकोण विशेष रूप से अच्छा प्रदर्शन करते हैं, जब प्रत्येक वर्ग को भविष्यवक्ता मूल्यों के कई संयोजनों द्वारा चित्रित किया जाता है।

उदाहरण के लिए, रीयल-एस्टेट डेटाबेस में, {घर का प्रकार, कमरों की संख्या, आस-पड़ोस, पूछ मूल्य, आदि} के कई सेट होने की संभावना है जो उन घरों की विशेषता है जो तेजी से बिकते हैं। उद्योग।

k-NN पद्धति की शक्ति के वास्तविक उपयोग में तीन कठिनाइयाँ हैं।

हालांकि प्रशिक्षण डेटा से मापदंडों की गणना करने के लिए समय की आवश्यकता नहीं है (जैसा कि प्रतिगमन सहित पैरामीट्रिक मॉडल के मामले में होगा), एक विशाल प्रशिक्षण सेट में निकटतम पड़ोसियों की खोज करने का समय प्रतिबंधात्मक हो सकता है। इस कठिनाई को दूर करने के लिए कई अवधारणाओं को लागू किया गया है। मुख्य अवधारणा इस प्रकार है -

  • यह मुख्य घटकों के विश्लेषण जैसी आयाम कमी तकनीकों का उपयोग करके कम आयाम में काम करके दूरियों की गणना करने में लगने वाले समय को कम कर सकता है।

  • यह निकटतम पड़ोसी की पहचान में तेजी लाने के लिए परिष्कृत डेटा संरचनाओं जैसे खोज पेड़ों का उपयोग कर सकता है। गति बढ़ाने के लिए यह विधि अक्सर "लगभग निकटतम" पड़ोसी के लिए व्यवस्थित होती है। एक उदाहरण बकेटिंग का उपयोग कर रहा है, जहां डेटा को बकेट में संयोजित किया जाता है ताकि प्रत्येक बकेट के अंदर डेटा एक दूसरे के निकट हो।

प्रशिक्षण सेट में आवश्यक कई डेटा को योग्यता प्राप्त करने के लिए कई भविष्यवक्ता के पी के साथ तेजी से बढ़ता है। इसका कारण यह है कि निकटतम पड़ोसी के लिए अपेक्षित दूरी पी के साथ बुरी तरह से बढ़ जाती है जब तक कि प्रशिक्षण सेट की मात्रा पी के साथ तेजी से बढ़ जाती है। इस घटना को आयामीता का अभिशाप कहा जाता है, जो कुछ वर्गीकरण, भविष्यवाणी और क्लस्टरिंग दृष्टिकोण से संबंधित एक मूलभूत समस्या है।

k-NN एक "आलसी सीखने वाला" है - समय लेने वाली गणना भविष्यवाणी के समय तक विलंबित होती है। भविष्यवाणी किए जाने वाले प्रत्येक डेटा के लिए, यह केवल भविष्यवाणी के समय प्रशिक्षण डेटा के पूरे सेट से अपनी दूरी की गणना कर सकता है। यह व्यवहार एक साथ कई डेटा की रीयल-टाइम भविष्यवाणी के लिए इस एल्गोरिदम का उपयोग करने में बाधा डालता है।


  1. डेटा अखंडता के प्रकार क्या हैं?

    डेटाबेस अखंडता संग्रहीत जानकारी की वैधता और स्थिरता को परिभाषित करती है। अखंडता को आम तौर पर बाधाओं के संदर्भ में परिभाषित किया जाता है, जो स्थिरता नियम हैं जिनका डेटाबेस को उल्लंघन करने की अनुमति नहीं है। बाधाएं प्रत्येक विशेषता पर लागू हो सकती हैं या वे तालिकाओं के बीच संबंधों पर लागू हो सकती हैं।

  1. स्टेग्नोग्राफ़ी के आवेदन क्या हैं?

    स्टेग्नोग्राफ़ी को स्पष्ट रूप से हानिरहित संदेशों के भीतर संदेशों को एम्बेड करके डेटा छिपाने की कला और विज्ञान के रूप में भी दर्शाया गया है। स्टेग्नोग्राफ़ी नियमित कंप्यूटर फ़ाइलों में बेकार या अप्रयुक्त जानकारी के बिट्स को पुनर्स्थापित करके काम करती है। यह छिपा हुआ डेटा प्लेन टेक्स्ट या सिफर टेक्स्

  1. सूचना सुरक्षा में डेटा एन्क्रिप्शन के क्या लाभ हैं?

    एन्क्रिप्शन सादे पाठ को सिफर टेक्स्ट में बदलने की प्रक्रिया है, यानी, दो पक्षों के बीच या अनधिकृत व्यक्ति से बातचीत की रक्षा के लिए पाठ को पढ़ने योग्य प्रारूप से गैर-पढ़ने योग्य प्रारूप में बदलना। सादे पाठ को तेजी से एन्क्रिप्ट करने के लिए एक निजी कुंजी का उपयोग किया जा सकता है। एन्क्रिप्शन को एन्क