पायथन में सांख्यिकीय सोच

सांख्यिकी एमएल और एआई सीखने के लिए मौलिक है। चूंकि इन तकनीकों के लिए पायथन पसंद की भाषा है, हम देखेंगे कि पायथन प्रोग्राम कैसे लिखना है जिसमें सांख्यिकीय विश्लेषण शामिल है। इस लेख में हम देखेंगे कि विभिन्न पायथन मॉड्यूल का उपयोग करके ग्राफ और चार्ट कैसे बनाया जाता है। विभिन्न प्रकार के चार्ट हमें डेटा का शीघ्रता से विश्लेषण करने में मदद करते हैं और इनसाइड प्राप्त करना ग्राफिक रूप से निष्कर्ष हैं।

डेटा तैयार करना

हम डेटा सेट लेते हैं जिसमें विभिन्न बीजों के बारे में डेटा होता है। यह डेटा सेट नीचे दिए गए प्रोग्राम में दिखाए गए लिंक में कागल पर उपलब्ध है। इसमें आठ स्तंभ हैं जिनका उपयोग विभिन्न बीजों की विशेषताओं की तुलना करने के लिए विभिन्न प्रकार के चार्ट बनाने के लिए किया जाएगा। नीचे दिया गया प्रोग्राम स्थानीय परिवेश से सेट किए गए डेटा को लोड करता है और पंक्तियों का एक नमूना प्रदर्शित करता है।

उदाहरण

import pandas as pd
import warnings
warnings.filterwarnings("ignore")
datainput = pd.read_csv('E:\\seeds.csv')
#https://www.kaggle.com/jmcaro/wheat-seedsuci
print(datainput)

आउटपुट

उपरोक्त कोड को चलाने से हमें निम्नलिखित परिणाम मिलते हैं -

      Area       Perimeter       Compactness    ...    Asymmetry.Coeff       Kernel.Groove       Type
0    15.26       14.84             0.8710       ...    2.221                      5.220             1
1    14.88       14.57             0.8811       ...    1.018                      4.956             1
2    14.29       14.09             0.9050       ...    2.699                      4.825             1
3    13.84       13.94             0.8955       ...    2.259                      4.805             1
4    16.14       14.99             0.9034       ...    1.355                      5.175             1
..     ...         ...             ...          ...    ...                         ...            ...
194   12.19      13.20             0.8783       ...    3.631                      4.870             3
195   11.23      12.88             0.8511       ...    4.325                      5.003             3
196   13.20      13.66             0.8883       ...    8.315                      5.056             3
197   11.84      13.21             0.8521       ...    3.598                      5.044             3
198   12.30      13.34             0.8684       ...    5.637                      5.063             3

[199 rows x 8 columns]

हिस्टोग्राम बनाना

हिस्टोग्राम बनाने के लिए हम csv फ़ाइल से हेडर पंक्ति को हटाते हैं और फ़ाइल को एक numpy array के रूप में पढ़ते हैं। फिर हम फ़ाइल को पढ़ने के लिए genfromtxt मॉड्यूल का उपयोग करते हैं। दायर की गई कर्नेल लंबाई सरणी में कॉलम इंडेक्स 3 के रूप में स्थित है। अंत में हम numpy द्वारा बनाए गए डेटा सेट का उपयोग करके हिस्टोग्राम को प्लॉट करने के लिए matplotlib का उपयोग करते हैं और आवश्यक लेबल भी लागू करते हैं।

उदाहरण

import matplotlib.pyplot as plot
import numpy as np
from numpy import genfromtxt
seed_data = genfromtxt('E:\\seeds.csv', delimiter=',')
Kernel_Length = seed_data[:, [3]]
x = len(Kernel_Length)
y = np.sqrt(x)
y = int(y)
z = plot.hist(Kernel_Length, bins=y, color='#FF4040')
z = plot.xlabel('Kernel_Length')
z = plot.ylabel('values')
plot.show()

आउटपुट

उपरोक्त कोड को चलाने से हमें निम्नलिखित परिणाम मिलते हैं -

अनुभवजन्य संचयी वितरण कार्य

यह चार्ट डेटा सेट में वितरित कर्नेल ग्रूव आकार का प्लॉट दिखाता है। इसे कम से कम से सबसे बड़े मूल्य पर व्यवस्थित किया जाता है और इसे वितरण के रूप में दिखाया जाता है।

उदाहरण

import matplotlib.pyplot as plot
import numpy as np
from numpy import genfromtxt
seed_data = genfromtxt('E:\\seeds.csv', delimiter=',')
Kernel_groove = seed_data[:, 6]
def ECDF(seed_data):#Empirical cumulative distribution functions
   i = len(seed_data)
   m = np.sort(seed_data)
   n = np.arange(1, i + 1) / i
   return m, n
m, n = ECDF(Kernel_groove)
plot.plot(m, n, marker='.', linestyle='none')
plot.xlabel('Kernel_Groove')
plot.ylabel('Empirical cumulative distribution functions')
plot.show()

आउटपुट

उपरोक्त कोड को चलाने से हमें निम्नलिखित परिणाम मिलते हैं -

मधुमक्खी के झुंड के प्लॉट

एक मधुमक्खी का प्लॉट प्रत्येक व्यक्तिगत डेटा बिंदु को नेत्रहीन रूप से क्लस्टर करके डेटा बिंदुओं के समूह के आकार को दिखाता है। हम इस ग्राफ को बनाने के लिए सीबॉर्न लाइब्रेरी का उपयोग करते हैं। हम डेटा सेट से टाइप कॉलम का उपयोग समान प्रकार के बीजों को एक साथ क्लस्टर करने के लिए करते हैं।

उदाहरण

import pandas as pd
import matplotlib.pyplot as plot
import seaborn as sns
datainput = pd.read_csv('E:\\seeds.csv')
sns.swarmplot(x='Type', y='Asymmetry.Coeff',data=datainput, color='#458B00')#bee swarm plot
plot.xlabel('Type')
plot.ylabel('Asymmetry_Coeff')
plot.show()

आउटपुट

उपरोक्त कोड को चलाने से हमें निम्नलिखित परिणाम मिलते हैं -