Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

डेटा माइनिंग में प्रतिगमन के प्रकार क्या हैं?


प्रतिगमन एक प्रकार की पर्यवेक्षित मशीन सीखने के दृष्टिकोण को परिभाषित करता है जिसका उपयोग किसी भी निरंतर-मूल्यवान विशेषता का पूर्वानुमान लगाने के लिए किया जा सकता है। प्रतिगमन लक्ष्य चर और भविष्यवक्ता चर संघों का पता लगाने के लिए कुछ व्यावसायिक संगठन प्रदान करता है। यह डेटा का पता लगाने के लिए एक आवश्यक उपकरण है जिसका उपयोग मौद्रिक पूर्वानुमान और समय श्रृंखला मॉडलिंग के लिए किया जा सकता है।

विभिन्न प्रकार के प्रतिगमन हैं जो इस प्रकार हैं -

रैखिक प्रतिगमन -रैखिक प्रतिगमन में दो विशेषताओं (या चर) को फिट करने के लिए "सर्वश्रेष्ठ" रेखा की खोज करना शामिल है ताकि एक विशेषता का उपयोग दूसरे की भविष्यवाणी करने के लिए किया जा सके। एकाधिक रेखीय प्रतिगमन रैखिक प्रतिगमन की प्रगति है, जहां दो से अधिक विशेषताओं को शामिल किया गया है और रिकॉर्ड एक बहुआयामी क्षेत्र के लिए उपयुक्त हैं।

उदाहरण के लिए, समीकरण है

Y = a + b*X + e.

कहां,

a अवरोधन को परिभाषित करता है

b प्रतिगमन रेखा के ढलान को परिभाषित करता है

ई त्रुटि को परिभाषित करता है

X और Y, प्रेडिक्टर और टारगेट वेरिएबल को तदनुसार परिभाषित करते हैं। यदि X एक से अधिक चर से बना है, जिसे कई रैखिक समीकरणों के रूप में परिभाषित किया गया है।

रैखिक प्रतिगमन में, सबसे अच्छी फिट लाइन कम से कम वर्ग विधि का उपयोग करके कार्यान्वित की जाती है, और यह प्रत्येक डेटा बिंदु से विचलन के वर्गों के कुल योग को प्रतिगमन की रेखा तक घटा देती है। इसलिए, सकारात्मक और नकारात्मक विचलन रद्द नहीं हुए हैं क्योंकि कुछ विचलन वर्ग हैं।

बहुपद प्रतिगमन - यदि समाश्रयण समीकरण में पृथक चर की घात 1 से अधिक है, तो इसे बहुपद समीकरण के रूप में परिभाषित किया जाता है।

उदाहरण के लिए, समीकरण है

Y = a + b * x2

विशिष्ट प्रतिगमन में, सर्वोत्तम फिट रेखा को एक सीधी रेखा नहीं माना जाता है जैसे कि रैखिक समीकरण; लेकिन यह कुछ डेटा बिंदुओं पर फिट किए गए वक्र को परिभाषित करता है।

लॉजिस्टिक रिग्रेशन - जब आश्रित चर प्रकृति में द्विआधारी होता है जैसे 0 और 1, सत्य या गलत, सफलता या विफलता, लॉजिस्टिक रिग्रेशन विधियां अस्तित्व में आती हैं। इसलिए, लक्ष्य मान (Y) 0 से 1 तक होता है, और इसका उपयोग आमतौर पर वर्गीकरण-आधारित समस्याओं के लिए किया जाता है। रैखिक प्रतिगमन के विपरीत, रैखिक संबंध रखने के लिए कुछ स्वतंत्र और आश्रित चर की आवश्यकता नहीं होती है।

रिज रिग्रेशन - रिज रिग्रेशन एक ऐसी प्रक्रिया को परिभाषित करता है जिसका उपयोग विभिन्न रिग्रेशन डेटा की गणना करने के लिए किया जा सकता है जिसमें मल्टीकोलिनियरिटी की समस्या होती है। बहुसंरेखण दो अलग-अलग चरों के बीच एक रैखिक सहसंबंध की निरंतरता है।

लासो प्रतिगमन - LASSO कम से कम पूर्ण संकोचन और चयन ऑपरेटर का प्रतिनिधित्व करता है। लासो प्रतिगमन प्रतिगमन की एक रैखिक विधि है जो संकोचन का उपयोग करती है। लासो प्रतिगमन में, कुछ डेटा बिंदु एक केंद्रीय बिंदु की ओर सिकुड़ जाते हैं, जिसे माध्य भी कहा जाता है। लासो प्रक्रिया अन्य प्रतिगमन की तुलना में कई मापदंडों के साथ सरल और विरल मॉडल के लिए सबसे उपयुक्त है। प्रतिगमन की यह विधि उन मॉडलों के लिए अच्छी तरह से उपयुक्त है जो बहुसंरेखण से सहन करते हैं।


  1. खनन अनुक्रम डेटा के प्रकार क्या हैं?

    अनुक्रम घटनाओं की एक क्रमबद्ध सूची है। घटनाओं की विशेषताओं के आधार पर अनुक्रमों को तीन समूहों में विभाजित किया जा सकता है, जिन्हें वे निम्नानुसार परिभाषित करते हैं - समय-श्रृंखला डेटा में समानता खोज एक समय-श्रृंखला डेटा सेट में समय की बार-बार गणना पर प्राप्त पूर्णांक मानों के अनुक्रम शामिल होते ह

  1. डेटा माइनिंग में आउटलेयर कितने प्रकार के होते हैं?

    डेटा माइनिंग में विभिन्न प्रकार के आउटलेयर हैं जो इस प्रकार हैं - वैश्विक आउटलेयर - किसी दिए गए डेटा सेट में, एक डेटा ऑब्जेक्ट एक वैश्विक बाहरी होता है यदि वह बाकी जानकारी सेट से अनिवार्य रूप से विचलित हो जाता है। वैश्विक आउटलेयर को बिंदु विसंगतियों के रूप में जाना जाता है, और सबसे आसान प्रकार के आ

  1. डेटा अखंडता के प्रकार क्या हैं?

    डेटाबेस अखंडता संग्रहीत जानकारी की वैधता और स्थिरता को परिभाषित करती है। अखंडता को आम तौर पर बाधाओं के संदर्भ में परिभाषित किया जाता है, जो स्थिरता नियम हैं जिनका डेटाबेस को उल्लंघन करने की अनुमति नहीं है। बाधाएं प्रत्येक विशेषता पर लागू हो सकती हैं या वे तालिकाओं के बीच संबंधों पर लागू हो सकती हैं।