पायथन में डेटा विश्लेषण और विज़ुअलाइज़ेशन?

पायथन डेटा विश्लेषण और विज़ुअलाइज़ेशन के लिए मुख्य रूप से सुन्न, पांडा, मैटप्लोटलिब, सीबॉर्न आदि के लिए कई पुस्तकालय प्रदान करता है। इस खंड में, हम डेटा विश्लेषण और विज़ुअलाइज़ेशन के लिए पांडा पुस्तकालय पर चर्चा करने जा रहे हैं, जो एक खुला स्रोत पुस्तकालय है जो सुन्न के ऊपर बनाया गया है।

यह हमें तेजी से विश्लेषण और डेटा की सफाई और तैयारी करने की अनुमति देता है। पांडा कई अंतर्निहित विज़ुअलाइज़ेशन सुविधाएँ भी प्रदान करता है जिन्हें हम नीचे देखने जा रहे हैं।

इंस्टॉलेशन

पांडा को स्थापित करने के लिए, अपने टर्मिनल में निम्न कमांड चलाएँ -

pipinstall pandas

या हमारे पास एनाकोंडा है, आप उपयोग कर सकते हैं

condainstall pandas

पांडस-डेटाफ़्रेम

जब हम पांडा के साथ काम कर रहे होते हैं तो डेटा फ्रेम मुख्य उपकरण होते हैं।

कोड -

import numpy as np
import pandas as pd
from numpy.random import randn
np.random.seed(50)
df = pd.DataFrame(randn(6,4), ['a','b','c','d','e','f'],['w','x','y','z'])
df

आउटपुट

<वें शैली ="पाठ-संरेखण:केंद्र;">w
<वें शैली ="पाठ-संरेखण:केंद्र;">x
<वें शैली ="पाठ-संरेखण:केंद्र;">y
<वें शैली ="पाठ-संरेखण:केंद्र;">z


a	-1.560352	-0.030978	-0.620928	-1.464580
b	1.411946	-0.476732	-0.780469	1.070268
c	-1.282293	-1.327479	0.126338	0.862194
d	0.696737	-0.334565	-0.997526	1.598908
e	3.314075	0.987770	0.123866	0.742785
f	-0.393956	0.148116	-0.412234	-0.160715

पंडों-अनुपलब्ध डेटा

हम लापता डेटा इनपांडा से निपटने के कुछ सुविधाजनक तरीके देखने जा रहे हैं, जो स्वचालित रूप से शून्य या नान से भर जाता है।

import numpy as np
import pandas as pd
from numpy.random import randn
d = {'A': [1,2,np.nan], 'B': [9, np.nan, np.nan], 'C': [1,4,9]}
df = pd.DataFrame(d)
df

आउटपुट

<वें शैली ="पाठ-संरेखण:केंद्र;" चौड़ाई ="41">ए
<वें शैली ="पाठ-संरेखण:केंद्र;" चौड़ाई ="41">बी
<वें शैली ="पाठ-संरेखण:केंद्र;">सी


0	1.0	9.0	1
1	2.0	NaN	4
2	NaN	NaN	9

तो, हमारे पास उपरोक्त में 3 लापता मान हैं।

df.dropna()

<वें शैली ="पाठ-संरेखण:केंद्र; चौड़ाई:27.8558%;" चौड़ाई ="36">ए
<वें शैली ="पाठ-संरेखण:केंद्र; चौड़ाई:28.056%;" चौड़ाई ="36">बी
<वें शैली ="पाठ-संरेखण:केंद्र;" चौड़ाई ="26">सी


0	1.0	9.0	1

df.dropna(axis = 1)

<वें शैली ="पाठ-संरेखण:केंद्र; चौड़ाई:69.8782%;" चौड़ाई ="26">सी


0	1
1	4
2	9

df.dropna(thresh = 2)

<वें शैली ="पाठ-संरेखण:केंद्र;" चौड़ाई ="36">ए
<वें शैली ="पाठ-संरेखण:केंद्र;" चौड़ाई ="46">बी
<वें शैली ="पाठ-संरेखण:केंद्र;" चौड़ाई ="26">सी


0	1.0	9.0	1
1	2.0	NaN	4

df.fillna(value = df.mean())

<वें शैली ="पाठ-संरेखण:केंद्र;" चौड़ाई ="36">ए
<वें शैली ="पाठ-संरेखण:केंद्र;" चौड़ाई ="36">बी
<वें शैली ="पाठ-संरेखण:केंद्र;" चौड़ाई ="26">सी


0	1.0	9.0	1
1	2.0	9.0	4
2	1.5	9.0	9

पंडस - डेटा आयात करें

हम csv फ़ाइल को पढ़ने जा रहे हैं जो या तो हमारी स्थानीय मशीन में संग्रहीत है (मेरे मामले में) या हम सीधे वेब से प्राप्त कर सकते हैं।

#import pandas library
import pandas as pd

#Read csv file and assigned it to dataframe variable
df = pd.read_csv("SYB61_T03_Population Growth Rates in Urban areas and Capital cities.csv",encoding = "ISO-8859-1")

#Read first five element from the dataframe
df.head()

. से पहले पांच तत्वों को पढ़ें

आउटपुट

पायथन में डेटा विश्लेषण और विज़ुअलाइज़ेशन?

हमारे डेटाफ़्रेम या सीएसवी फ़ाइल में पंक्तियों और स्तंभों की संख्या पढ़ने के लिए।

#Countthe number of rows and columns in our dataframe.
df.shape

आउटपुट

(4166,9)

पंडों - डेटाफ़्रेम गणित

आँकड़ों के लिए पांडा के विभिन्न उपकरणों का उपयोग करके डेटाफ़्रेम का संचालन किया जा सकता है

#To computes various summary statistics, excluding NaN values
df.describe()

आउटपुट

पायथन में डेटा विश्लेषण और विज़ुअलाइज़ेशन?

# computes numerical data ranks
df.rank()

आउटपुट

पायथन में डेटा विश्लेषण और विज़ुअलाइज़ेशन?

.....

पायथन में डेटा विश्लेषण और विज़ुअलाइज़ेशन?

पंडों - प्लॉट ग्राफ़

import matplotlib.pyplot as plt
years = [1981, 1991, 2001, 2011, 2016]

Average_populations = [716493000, 891910000, 1071374000, 1197658000, 1273986000]

plt.plot(years, Average_populations)
plt.title("Census of India: sample registration system")
plt.xlabel("Year")
plt.ylabel("Average_populations")
plt.show()

आउटपुट

पायथन में डेटा विश्लेषण और विज़ुअलाइज़ेशन?

उपरोक्त डेटा का स्कैटर प्लॉट:

plt.scatter(years,Average_populations)

पायथन में डेटा विश्लेषण और विज़ुअलाइज़ेशन?

हिस्टोग्राम:

import matplotlib.pyplot as plt

Average_populations = [716493000, 891910000, 1071374000, 1197658000, 1273986000]

plt.hist(Average_populations, bins = 10)
plt.xlabel("Average_populations")
plt.ylabel("Frequency")

plt.show()

आउटपुट

पायथन में डेटा विश्लेषण और विज़ुअलाइज़ेशन?