एक k-निकटतम-पड़ोसी एल्गोरिथ्म एक वर्गीकरण दृष्टिकोण है जो वर्ग सदस्यता (Y) और भविष्यवक्ताओं X1 के बीच संबंध की संरचना के बारे में धारणाएं नहीं बनाता है। , एक्स<उप>2उप> ,…. एक्स<उप>एनउप> ।
यह एक गैर-पैरामीट्रिक दृष्टिकोण है क्योंकि इसमें रेखीय प्रतिगमन में दिखाए गए रैखिक रूप सहित, एक दिखावा फ़ंक्शन रूप में पैरामीटर का अनुमान शामिल नहीं है। यह विधि डेटासेट में डेटा के भविष्यवक्ता मूल्यों के बीच समानता से डेटा खींचती है।
के-एनएन विधियों का लाभ उनकी अखंडता और पैरामीट्रिक मान्यताओं की आवश्यकता है। एक विशाल प्रशिक्षण सेट की उपस्थिति में, ये दृष्टिकोण विशेष रूप से अच्छा प्रदर्शन करते हैं, जब प्रत्येक वर्ग को भविष्यवक्ता मूल्यों के कई संयोजनों द्वारा चित्रित किया जाता है।
उदाहरण के लिए, रीयल-एस्टेट डेटाबेस में, {घर का प्रकार, कमरों की संख्या, आस-पड़ोस, पूछ मूल्य, आदि} के कई सेट होने की संभावना है जो उन घरों की विशेषता है जो तेजी से बिकते हैं। उद्योग।
k-NN पद्धति की शक्ति के वास्तविक उपयोग में तीन कठिनाइयाँ हैं।
हालांकि प्रशिक्षण डेटा से मापदंडों की गणना करने के लिए समय की आवश्यकता नहीं है (जैसा कि प्रतिगमन सहित पैरामीट्रिक मॉडल के मामले में होगा), एक विशाल प्रशिक्षण सेट में निकटतम पड़ोसियों की खोज करने का समय प्रतिबंधात्मक हो सकता है। इस कठिनाई को दूर करने के लिए कई अवधारणाओं को लागू किया गया है। मुख्य अवधारणा इस प्रकार है -
-
यह मुख्य घटकों के विश्लेषण जैसी आयाम कमी तकनीकों का उपयोग करके कम आयाम में काम करके दूरियों की गणना करने में लगने वाले समय को कम कर सकता है।
-
यह निकटतम पड़ोसी की पहचान में तेजी लाने के लिए परिष्कृत डेटा संरचनाओं जैसे खोज पेड़ों का उपयोग कर सकता है। गति बढ़ाने के लिए यह विधि अक्सर "लगभग निकटतम" पड़ोसी के लिए व्यवस्थित होती है। एक उदाहरण बकेटिंग का उपयोग कर रहा है, जहां डेटा को बकेट में संयोजित किया जाता है ताकि प्रत्येक बकेट के अंदर डेटा एक दूसरे के निकट हो।
प्रशिक्षण सेट में आवश्यक कई डेटा को योग्यता प्राप्त करने के लिए कई भविष्यवक्ता के पी के साथ तेजी से बढ़ता है। इसका कारण यह है कि निकटतम पड़ोसी के लिए अपेक्षित दूरी पी के साथ बुरी तरह से बढ़ जाती है जब तक कि प्रशिक्षण सेट की मात्रा पी के साथ तेजी से बढ़ जाती है। इस घटना को आयामीता का अभिशाप कहा जाता है, जो कुछ वर्गीकरण, भविष्यवाणी और क्लस्टरिंग दृष्टिकोण से संबंधित एक मूलभूत समस्या है।
k-NN एक "आलसी सीखने वाला" है - समय लेने वाली गणना भविष्यवाणी के समय तक विलंबित होती है। भविष्यवाणी किए जाने वाले प्रत्येक डेटा के लिए, यह केवल भविष्यवाणी के समय प्रशिक्षण डेटा के पूरे सेट से अपनी दूरी की गणना कर सकता है। यह व्यवहार एक साथ कई डेटा की रीयल-टाइम भविष्यवाणी के लिए इस एल्गोरिदम का उपयोग करने में बाधा डालता है।