सांख्यिकी एमएल और एआई सीखने के लिए मौलिक है। चूंकि इन तकनीकों के लिए पायथन पसंद की भाषा है, हम देखेंगे कि पायथन प्रोग्राम कैसे लिखना है जिसमें सांख्यिकीय विश्लेषण शामिल है। इस लेख में हम देखेंगे कि विभिन्न पायथन मॉड्यूल का उपयोग करके ग्राफ और चार्ट कैसे बनाया जाता है। विभिन्न प्रकार के चार्ट हमें डेटा का शीघ्रता से विश्लेषण करने में मदद करते हैं और इनसाइड प्राप्त करना ग्राफिक रूप से निष्कर्ष हैं।
डेटा तैयार करना
हम डेटा सेट लेते हैं जिसमें विभिन्न बीजों के बारे में डेटा होता है। यह डेटा सेट नीचे दिए गए प्रोग्राम में दिखाए गए लिंक में कागल पर उपलब्ध है। इसमें आठ स्तंभ हैं जिनका उपयोग विभिन्न बीजों की विशेषताओं की तुलना करने के लिए विभिन्न प्रकार के चार्ट बनाने के लिए किया जाएगा। नीचे दिया गया प्रोग्राम स्थानीय परिवेश से सेट किए गए डेटा को लोड करता है और पंक्तियों का एक नमूना प्रदर्शित करता है।
उदाहरण
import pandas as pd
import warnings
warnings.filterwarnings("ignore")
datainput = pd.read_csv('E:\\seeds.csv')
#https://www.kaggle.com/jmcaro/wheat-seedsuci
print(datainput) आउटपुट
उपरोक्त कोड को चलाने से हमें निम्नलिखित परिणाम मिलते हैं -
Area Perimeter Compactness ... Asymmetry.Coeff Kernel.Groove Type 0 15.26 14.84 0.8710 ... 2.221 5.220 1 1 14.88 14.57 0.8811 ... 1.018 4.956 1 2 14.29 14.09 0.9050 ... 2.699 4.825 1 3 13.84 13.94 0.8955 ... 2.259 4.805 1 4 16.14 14.99 0.9034 ... 1.355 5.175 1 .. ... ... ... ... ... ... ... 194 12.19 13.20 0.8783 ... 3.631 4.870 3 195 11.23 12.88 0.8511 ... 4.325 5.003 3 196 13.20 13.66 0.8883 ... 8.315 5.056 3 197 11.84 13.21 0.8521 ... 3.598 5.044 3 198 12.30 13.34 0.8684 ... 5.637 5.063 3 [199 rows x 8 columns]
हिस्टोग्राम बनाना
हिस्टोग्राम बनाने के लिए हम csv फ़ाइल से हेडर पंक्ति को हटाते हैं और फ़ाइल को एक numpy array के रूप में पढ़ते हैं। फिर हम फ़ाइल को पढ़ने के लिए genfromtxt मॉड्यूल का उपयोग करते हैं। दायर की गई कर्नेल लंबाई सरणी में कॉलम इंडेक्स 3 के रूप में स्थित है। अंत में हम numpy द्वारा बनाए गए डेटा सेट का उपयोग करके हिस्टोग्राम को प्लॉट करने के लिए matplotlib का उपयोग करते हैं और आवश्यक लेबल भी लागू करते हैं।
उदाहरण
import matplotlib.pyplot as plot
import numpy as np
from numpy import genfromtxt
seed_data = genfromtxt('E:\\seeds.csv', delimiter=',')
Kernel_Length = seed_data[:, [3]]
x = len(Kernel_Length)
y = np.sqrt(x)
y = int(y)
z = plot.hist(Kernel_Length, bins=y, color='#FF4040')
z = plot.xlabel('Kernel_Length')
z = plot.ylabel('values')
plot.show() आउटपुट
उपरोक्त कोड को चलाने से हमें निम्नलिखित परिणाम मिलते हैं -
अनुभवजन्य संचयी वितरण कार्य
यह चार्ट डेटा सेट में वितरित कर्नेल ग्रूव आकार का प्लॉट दिखाता है। इसे कम से कम से सबसे बड़े मूल्य पर व्यवस्थित किया जाता है और इसे वितरण के रूप में दिखाया जाता है।
उदाहरण
import matplotlib.pyplot as plot
import numpy as np
from numpy import genfromtxt
seed_data = genfromtxt('E:\\seeds.csv', delimiter=',')
Kernel_groove = seed_data[:, 6]
def ECDF(seed_data):#Empirical cumulative distribution functions
i = len(seed_data)
m = np.sort(seed_data)
n = np.arange(1, i + 1) / i
return m, n
m, n = ECDF(Kernel_groove)
plot.plot(m, n, marker='.', linestyle='none')
plot.xlabel('Kernel_Groove')
plot.ylabel('Empirical cumulative distribution functions')
plot.show() आउटपुट
उपरोक्त कोड को चलाने से हमें निम्नलिखित परिणाम मिलते हैं -
मधुमक्खी के झुंड के प्लॉट
एक मधुमक्खी का प्लॉट प्रत्येक व्यक्तिगत डेटा बिंदु को नेत्रहीन रूप से क्लस्टर करके डेटा बिंदुओं के समूह के आकार को दिखाता है। हम इस ग्राफ को बनाने के लिए सीबॉर्न लाइब्रेरी का उपयोग करते हैं। हम डेटा सेट से टाइप कॉलम का उपयोग समान प्रकार के बीजों को एक साथ क्लस्टर करने के लिए करते हैं।
उदाहरण
import pandas as pd
import matplotlib.pyplot as plot
import seaborn as sns
datainput = pd.read_csv('E:\\seeds.csv')
sns.swarmplot(x='Type', y='Asymmetry.Coeff',data=datainput, color='#458B00')#bee swarm plot
plot.xlabel('Type')
plot.ylabel('Asymmetry_Coeff')
plot.show() आउटपुट
उपरोक्त कोड को चलाने से हमें निम्नलिखित परिणाम मिलते हैं -


