प्रिंसिपल कंपोनेंट एनालिसिस एक अनसुनी लर्निंग एल्गोरिथम है जिसका इस्तेमाल मशीन लर्निंग में डायमेंशन कम करने के लिए किया जाता है। यह एक सांख्यिकीय प्रक्रिया है जो सहसंबद्ध विशेषताओं के अवलोकन को ओर्थोगोनल डेटा के समर्थन से रैखिक रूप से असंबद्ध विशेषताओं के संग्रह में बदल देती है। इन नई रूपांतरित विशेषताओं को प्रमुख घटक के रूप में जाना जाता है।
यह एक प्रसिद्ध उपकरण है जिसका उपयोग खोजपूर्ण डेटा विश्लेषण और मॉडलिंग की भविष्यवाणी के लिए किया जाता है। यह भिन्नताओं को कम करके दिए गए डेटासेट से एक मजबूत डिजाइन तैयार करने का एक तरीका है।
पीसीए प्रत्येक विशेषता के विचरण का इलाज करके काम करता है क्योंकि उच्च विशेषता वर्गों के बीच विभाजन को दर्शाती है, और इसलिए यह आयामीता को कम करती है। पीसीए के कुछ वास्तविक-विश्व अनुप्रयोग इमेज प्रोसेसिंग, मूवी अनुशंसा प्रणाली, विभिन्न संचार चैनलों में बिजली आवंटन का अनुकूलन कर रहे हैं। यह एक सुविधा निष्कर्षण विधि है, इसलिए इसमें महत्वपूर्ण चर शामिल हैं और कम से कम महत्वपूर्ण चर को छोड़ देता है।
प्रिंसिपल कंपोनेंट्स एनालिसिस को करहुनेन-लोव, या के-एल, मेथड भी कहा जाता है। यह k n-आयामी ऑर्थोगोनल वैक्टर की खोज कर सकता है जिसका उपयोग डेटा का प्रतिनिधित्व करने के लिए सबसे अच्छा किया जा सकता है, जहां k n। मूल डेटा को बहुत छोटे क्षेत्र में प्रक्षेपित किया जाता है, जिसके परिणामस्वरूप आयामीता में कमी आती है। यह चरों का एक वैकल्पिक छोटा सेट बनाकर विशेषताओं के सार को जोड़ता है। फिर प्रारंभिक डेटा को इस छोटे सेट पर प्रक्षेपित किया जा सकता है।
पीसीए में उपयोग किए जाने वाले निम्नलिखित चरण इस प्रकार हैं -
-
इनपुट डेटा को सामान्यीकृत किया जाता है ताकि प्रत्येक विशेषता एक समान सीमा के भीतर आ जाए। यह कदम यह सुनिश्चित करने में मदद करता है कि बड़े डोमेन वाली विशेषताएँ छोटे डोमेन वाली विशेषताओं पर हावी नहीं होंगी।
-
पीसीए k ऑर्थोनॉर्मल वैक्टर का मूल्यांकन करता है जो सामान्यीकृत इनपुट डेटा के आधार का समर्थन करते हैं। ये इकाई सदिश हैं जो प्रत्येक बिंदु एक दिशा में दूसरों के लंबवत हैं। इन वैक्टरों को प्रमुख घटकों के रूप में परिभाषित किया गया है। इनपुट डेटा प्रमुख घटकों का एक रैखिक सेट है।
-
मुख्य घटकों को "महत्व" या शक्ति के घटते क्रम में व्यवस्थित किया जाता है। प्रमुख घटक अनिवार्य रूप से डेटा के लिए कुल्हाड़ियों के एक नए सेट के रूप में कार्य करते हैं, जो विचरण के बारे में महत्वपूर्ण जानकारी प्रदान करते हैं। अर्थात्, क्रमबद्ध कुल्हाड़ियाँ ऐसी होती हैं कि पहला अक्ष डेटा के बीच सबसे अधिक विचरण प्रदर्शित करता है, दूसरा अक्ष अगले उच्चतम विचरण को प्रदर्शित करता है, आदि।
-
चूंकि घटकों को "महत्व" के घटते क्रम के अनुसार क्रमबद्ध किया जाता है, इसलिए कमजोर घटकों को हटाकर डेटा के आकार को कम किया जा सकता है, अर्थात् कम भिन्नता वाले। सबसे मजबूत प्रमुख घटकों का उपयोग करके, मूल डेटा के एक अच्छे अनुमान को फिर से बनाना संभव होना चाहिए।