पायथन में सहसंबंध की खोज

सहसंबंध दो चरों के बीच संबंध को मापने के लिए एक सांख्यिकीय शब्द है। यदि संबंध स्ट्रिंग है, तो इसका मतलब है कि एक चर में परिवर्तन दूसरे चर में एक पूर्वानुमेय पैटर्न में परिवर्तन को दर्शाता है तो हम कहते हैं कि चर सहसंबद्ध हैं। इसके अलावा पहले चर में भिन्नता दूसरे चर में सकारात्मक या नकारात्मक भिन्नता का कारण बन सकती है। तदनुसार, उन्हें सकारात्मक या नकारात्मक सहसंबद्ध कहा जाता है। आदर्श रूप से सहसंबंध गुणांक का मान -1 से +1 के बीच होता है।

यदि मान +1 या उसके करीब है तो हम कहते हैं कि चर सकारात्मक रूप से सहसंबद्ध हैं। और वे एक ही दिशा में एक साथ बदलते हैं।
यदि मान -1 या उसके करीब है तो हम कहते हैं कि चर नकारात्मक रूप से सहसंबद्ध हैं। और वे एक साथ विपरीत दिशा में बदलते हैं।
यदि मान 0 या उसके करीब है तो हम कहते हैं कि चर सहसंबद्ध नहीं हैं।

सहसंबंध के गुणांक को मापने के विभिन्न तरीके हैं। वे numpy या scipy.stats में फ़ंक्शन के रूप में उपलब्ध हैं। नीचे हम देखेंगे कि उनका उपयोग कैसे किया जाता है।

स्पीयरमैन के सहसंबंध का उपयोग करना

स्पीयरमैन का सहसंबंध रैखिक रूप से संबंधित चर के बीच संबंध की डिग्री को मापने के लिए है। यह एक सूत्र पर आधारित है जिसका उपयोग परिणाम उत्पन्न करने के लिए scipy.stats पैकेज द्वारा किया जाता है। यह सहसंबंध खोजने के लिए सबसे व्यापक रूप से इस्तेमाल किया जाने वाला सूत्र है।

नीचे के उदाहरण में हम दो वेरिएबल लेते हैं जिनके मान numpy.randon() funcntion का उपयोग करके उत्पन्न होते हैं। फिर अंतिम परिणाम प्राप्त करने के लिए स्पीयरमैनर () लागू किया जाता है।

उदाहरण

from numpy.random import randn
from numpy.random import seed
from scipy.stats import spearmanr
seed(1)
data_input1 = 20 * randn(1000) + 100
data_input2 = data_input1 + (10 * randn(1000) + 50)
correlation = spearmanr(data_input1, data_input2)
   print(correlation)

आउटपुट

उपरोक्त कोड को चलाने से हमें निम्नलिखित परिणाम मिलते हैं -

SpearmanrResult(correlation=0.8724050484050484, pvalue=1.58425746359e-312)

पियर्सन के सहसंबंध का उपयोग करना

पियर्सन का सहसंबंध रैखिक रूप से संबंधित चर के बीच संबंध की डिग्री को मापने का एक और तरीका है। यह एक सूत्र पर आधारित है जिसका उपयोग परिणाम उत्पन्न करने के लिए scipy.stats पैकेज द्वारा किया जाता है।

नीचे के उदाहरण में हम दो वेरिएबल लेते हैं जिनके मान numpy.randon() funcntion का उपयोग करके उत्पन्न होते हैं। फिर अंतिम परिणाम प्राप्त करने के लिए पियरसन () लागू किया जाता है।

उदाहरण

from numpy.random import randn
from numpy.random import seed
from scipy.stats import pearsonr
seed(1)
data1 = 20 * randn(1000) + 100
data2 = data1 + (10 * randn(1000) + 50)
correlation, _ = pearsonr(data1, data2)
print('Pearsons correlation: %.3f' % correlation)

आउटपुट

उपरोक्त कोड को चलाने से हमें निम्नलिखित परिणाम मिलते हैं -

Pearsons correlation: 0.888