सामान्यीकृत रैखिक मॉडल सैद्धांतिक प्राधिकरण को परिभाषित करता है जिस पर श्रेणीबद्ध प्रतिक्रिया चर के मॉडलिंग के लिए रैखिक प्रतिगमन का उपयोग किया जा सकता है। सामान्यीकृत रैखिक मॉडल में, प्रतिक्रिया चर का विचरण, y, y के माध्य मान का एक कार्य है, रैखिक प्रतिगमन के विपरीत, जहां y का विचरण स्थिर होता है।
सामान्यीकृत रैखिक मॉडल (जीएलएम) पारंपरिक रैखिक मॉडल का विस्तार हैं। यह एल्गोरिथम लॉग संभावना को अधिकतम करके सामान्यीकृत रैखिक मॉडल को जानकारी में फिट करता है। लोचदार शुद्ध दंड का उपयोग पैरामीटर नियमितीकरण के लिए किया जा सकता है। मॉडल फिटिंग गणना समानांतर, पूरी तरह से तेज़ है, और गैर-शून्य गुणांक वाले निश्चित संख्या में भविष्यवक्ताओं वाले मॉडल के लिए पूरी तरह से अच्छी तरह से मापी जाती है।
लॉजिस्टिक रिग्रेशन और पॉइसन रिग्रेशन जैसे सामान्यीकृत रैखिक मॉडल दो प्रकार के होते हैं। लॉजिस्टिक रिग्रेशन मॉडल विभिन्न घटनाओं की संभावना को भविष्यवक्ता चर के समूह के रैखिक कार्य के रूप में प्रदर्शित करता है। गणना डेटा अक्सर पॉइसन वितरण प्रदर्शित करता है और आमतौर पर पॉइसन प्रतिगमन का उपयोग करके मॉडलिंग की जाती है।
लॉग-रैखिक मॉडल सटीक असतत बहुआयामी संभाव्यता वितरण। उनका उपयोग डेटा क्यूब कोशिकाओं से संबंधित संभाव्यता मान की गणना के लिए किया जा सकता है। उदाहरण के लिए, मान लीजिए कि विशेषता शहर, वस्तु, वर्ष और बिक्री के लिए डेटा दिया गया है। लॉग-लीनियर दृष्टिकोण में, सभी विशेषताओं को श्रेणीबद्ध होना चाहिए और इस प्रकार निरंतर-मूल्यवान विशेषताओं (जैसे बिक्री) को विवेकाधीन किया जाना चाहिए।
दी गई विशेषताओं के लिए 4-डी बेस क्यूबॉइड में प्रत्येक सेल की संभावना की गणना करने के लिए दृष्टिकोण का उपयोग किया जा सकता है, शहर और आइटम, शहर और वर्ष, शहर और बिक्री के लिए 2-डी क्यूबॉइड और 3-डी क्यूबॉइड पर निर्भर करता है। आइटम, वर्ष और बिक्री के लिए। इस पद्धति में, निचले क्रम वाले से उच्च-श्रृंखला डेटा क्यूब बनाने के लिए एक पुनरावृत्त दृष्टिकोण का उपयोग किया जा सकता है।
कई आयामों के लिए सक्षम करने के लिए विधि अच्छी तरह से बढ़ जाती है। भविष्यवाणी के अलावा, लॉग-लीनियर मॉडल डेटा संपीड़न के लिए फायदेमंद है (क्योंकि छोटे-क्रम वाले क्यूबॉइड आमतौर पर बेस क्यूबॉइड की तुलना में कम क्षेत्र पर कब्जा करते हैं) और डेटा स्मूथिंग (क्योंकि सेल छोटे-क्रम वाले क्यूबॉइड में गणना की तुलना में नमूना विविधताओं पर कम निर्भर होते हैं। कोशिका आधार घनाभ में गणना करती है)।
डिसीजन ट्री इंडक्शन उपयुक्त हो सकता है ताकि क्लास लेबल के बजाय निरंतर (आदेशित) मूल्यों की भविष्यवाणी की जा सके। प्रेडिक्शन रिग्रेशन ट्री और मॉडल ट्री के लिए दो प्रकार के ट्री हैं। रिग्रेशन ट्री को कार्ट लर्निंग सिस्टम के एक तत्व के रूप में सुझाया गया था।
प्रत्येक प्रतिगमन वृक्ष का पत्ता एक निरंतर-मूल्यवान भविष्यवाणी को बचाता है, जो कि प्रशिक्षण टुपल्स के लिए अनुमानित विशेषता का औसत मूल्य है जो पत्ती को पकड़ता है। इसके विपरीत, मॉडल पेड़ों में, प्रत्येक पत्ता एक प्रतिगमन मॉडल और अनुमानित विशेषता के लिए एक बहुभिन्नरूपी रैखिक समीकरण को प्रभावित करता है। जब डेटा को एक साधारण रेखीय मॉडल द्वारा अच्छी तरह से परिभाषित नहीं किया जाता है, तो रिग्रेशन और मॉडल ट्री रैखिक प्रतिगमन की तुलना में अधिक कुशल होते हैं।