K-निकटतम पड़ोसी एल्गोरिथ्म क्या है?

<घंटा/>

एक k-निकटतम-पड़ोसी एल्गोरिथ्म एक वर्गीकरण दृष्टिकोण है जो वर्ग सदस्यता (Y) और भविष्यवक्ताओं X₁ के बीच संबंध की संरचना के बारे में धारणाएं नहीं बनाता है। , एक्स<उप>2 ,…. एक्स<उप>एन ।

यह एक गैर-पैरामीट्रिक दृष्टिकोण है क्योंकि इसमें रेखीय प्रतिगमन में दिखाए गए रैखिक रूप सहित, एक दिखावा फ़ंक्शन रूप में पैरामीटर का अनुमान शामिल नहीं है। यह दृष्टिकोण डेटासेट में डेटा के पूर्वसूचक मूल्यों के बीच समानता से डेटा खींचता है।

k-निकटतम-पड़ोसी विधियों में अवधारणा प्रशिक्षण डेटासेट में k रिकॉर्ड को पहचानना है जो कि वर्गीकृत करने के लिए आवश्यक नए डेटा के समान हैं। यह नए रिकॉर्ड को एक वर्ग में परिभाषित करने के लिए इन समान (पड़ोसी) रिकॉर्ड का उपयोग कर सकता है, इन पड़ोसियों के बीच प्रमुख वर्ग के लिए नया डेटा बना सकता है। यह X₁ . द्वारा इस नए रिकॉर्ड के लिए भविष्यवक्ताओं के मूल्यों को इंगित करता है , एक्स<उप>2 ,…. एक्स<उप>एन ।

एक केंद्रीय प्रश्न यह है कि उनके भविष्यवक्ता मूल्यों के आधार पर डेटा के बीच की दूरी की गणना कैसे करें। दूरी का प्रसिद्ध उपाय यूक्लिडियन दूरी है। दो रिकॉर्ड के बीच यूक्लिडियन दूरी (X₁ , एक्स<उप>2 ,…. एक्स<उप>एन ) और (यू<उप>1 , यू<उप>2 ,…. यू<उप>एन ) है

$$\mathrm{\sqrt{(X_1-U_1)^2+(X_2-U_2)^2+...+(X_n-U_n)^2}}$$

k-NN एल्गोरिथम कई दूरी की गणनाओं पर निर्भर करता है (पूर्वानुमान किए जाने वाले प्रत्येक डेटा और प्रशिक्षण सेट में प्रत्येक डेटा के बीच), और इसलिए यूक्लिडियन दूरी, जो कम्प्यूटेशनल रूप से सस्ती है, k-NN में सबसे लोकप्रिय है।

यह उन पैमानों को संतुलित कर सकता है जो कई भविष्यवक्ताओं के पास हो सकते हैं, ज्यादातर मामलों में, यूक्लिडियन दूरी की गणना करने से पहले भविष्यवक्ताओं को मानकीकृत किया जाना चाहिए। नए डेटा को मानकीकृत करने वाले साधन और मानक विचलन प्रशिक्षण डेटा के हैं, और नया डेटा उनकी गणना में शामिल नहीं है। सत्यापन डेटा, जैसे नया डेटा, भी इस गणना में शामिल नहीं है।

परिभाषित किए जाने वाले डेटा और वर्तमान रिकॉर्ड के बीच की दूरी की गणना करने के बाद, अपने पड़ोसियों की कक्षाओं के आधार पर, रिकॉर्ड को वर्गीकृत करने के लिए एक वर्ग निर्दिष्ट करने के लिए एक नियम की आवश्यकता होती है।

सबसे सरल मामला k =1 है, जहां हम निकटतम डेटा (निकटतम पड़ोसी) की तलाश करते हैं और नए डेटा को उसके निकटतम पड़ोसी के समान वर्ग से संबंधित के रूप में वर्गीकृत करते हैं।

यह एक असाधारण तथ्य है कि रिकॉर्ड को वर्गीकृत करने के लिए एक निकटतम पड़ोसी का उपयोग करने की यह सरल, बोधगम्य अवधारणा तब मजबूत हो सकती है जब हमारे पास प्रशिक्षण सेट में कई रिकॉर्ड हों। यह बदल जाता है कि 1-निकटतम पड़ोसी डिज़ाइन की गलत वर्गीकरण त्रुटि में एक गलत वर्गीकरण दर है जो त्रुटि के दोगुने से अधिक नहीं है जब यह प्रत्येक वर्ग के लिए संभाव्यता घनत्व कार्यों को सटीक रूप से समझ सकता है।