एक k-निकटतम-पड़ोसी एल्गोरिथ्म एक वर्गीकरण दृष्टिकोण है जो वर्ग सदस्यता (Y) और भविष्यवक्ताओं X1 के बीच संबंध की संरचना के बारे में धारणाएं नहीं बनाता है। , एक्स<उप>2उप> ,…. एक्स<उप>एनउप> ।
यह एक गैर-पैरामीट्रिक दृष्टिकोण है क्योंकि इसमें रेखीय प्रतिगमन में दिखाए गए रैखिक रूप सहित, एक दिखावा फ़ंक्शन रूप में पैरामीटर का अनुमान शामिल नहीं है। यह दृष्टिकोण डेटासेट में डेटा के पूर्वसूचक मूल्यों के बीच समानता से डेटा खींचता है।
k-निकटतम-पड़ोसी विधियों में अवधारणा प्रशिक्षण डेटासेट में k रिकॉर्ड को पहचानना है जो कि वर्गीकृत करने के लिए आवश्यक नए डेटा के समान हैं। यह नए रिकॉर्ड को एक वर्ग में परिभाषित करने के लिए इन समान (पड़ोसी) रिकॉर्ड का उपयोग कर सकता है, इन पड़ोसियों के बीच प्रमुख वर्ग के लिए नया डेटा बना सकता है। यह X1 . द्वारा इस नए रिकॉर्ड के लिए भविष्यवक्ताओं के मूल्यों को इंगित करता है , एक्स<उप>2उप> ,…. एक्स<उप>एनउप> ।
एक केंद्रीय प्रश्न यह है कि उनके भविष्यवक्ता मूल्यों के आधार पर डेटा के बीच की दूरी की गणना कैसे करें। दूरी का प्रसिद्ध उपाय यूक्लिडियन दूरी है। दो रिकॉर्ड के बीच यूक्लिडियन दूरी (X1 , एक्स<उप>2उप> ,…. एक्स<उप>एनउप> ) और (यू<उप>1उप> , यू<उप>2उप> ,…. यू<उप>एनउप> ) है
$$\mathrm{\sqrt{(X_1-U_1)^2+(X_2-U_2)^2+...+(X_n-U_n)^2}}$$
k-NN एल्गोरिथम कई दूरी की गणनाओं पर निर्भर करता है (पूर्वानुमान किए जाने वाले प्रत्येक डेटा और प्रशिक्षण सेट में प्रत्येक डेटा के बीच), और इसलिए यूक्लिडियन दूरी, जो कम्प्यूटेशनल रूप से सस्ती है, k-NN में सबसे लोकप्रिय है।
यह उन पैमानों को संतुलित कर सकता है जो कई भविष्यवक्ताओं के पास हो सकते हैं, ज्यादातर मामलों में, यूक्लिडियन दूरी की गणना करने से पहले भविष्यवक्ताओं को मानकीकृत किया जाना चाहिए। नए डेटा को मानकीकृत करने वाले साधन और मानक विचलन प्रशिक्षण डेटा के हैं, और नया डेटा उनकी गणना में शामिल नहीं है। सत्यापन डेटा, जैसे नया डेटा, भी इस गणना में शामिल नहीं है।
परिभाषित किए जाने वाले डेटा और वर्तमान रिकॉर्ड के बीच की दूरी की गणना करने के बाद, अपने पड़ोसियों की कक्षाओं के आधार पर, रिकॉर्ड को वर्गीकृत करने के लिए एक वर्ग निर्दिष्ट करने के लिए एक नियम की आवश्यकता होती है।
सबसे सरल मामला k =1 है, जहां हम निकटतम डेटा (निकटतम पड़ोसी) की तलाश करते हैं और नए डेटा को उसके निकटतम पड़ोसी के समान वर्ग से संबंधित के रूप में वर्गीकृत करते हैं।
यह एक असाधारण तथ्य है कि रिकॉर्ड को वर्गीकृत करने के लिए एक निकटतम पड़ोसी का उपयोग करने की यह सरल, बोधगम्य अवधारणा तब मजबूत हो सकती है जब हमारे पास प्रशिक्षण सेट में कई रिकॉर्ड हों। यह बदल जाता है कि 1-निकटतम पड़ोसी डिज़ाइन की गलत वर्गीकरण त्रुटि में एक गलत वर्गीकरण दर है जो त्रुटि के दोगुने से अधिक नहीं है जब यह प्रत्येक वर्ग के लिए संभाव्यता घनत्व कार्यों को सटीक रूप से समझ सकता है।