पायथन डेटा विश्लेषण और विज़ुअलाइज़ेशन के लिए मुख्य रूप से सुन्न, पांडा, मैटप्लोटलिब, सीबॉर्न आदि के लिए कई पुस्तकालय प्रदान करता है। इस खंड में, हम डेटा विश्लेषण और विज़ुअलाइज़ेशन के लिए पांडा पुस्तकालय पर चर्चा करने जा रहे हैं, जो एक खुला स्रोत पुस्तकालय है जो सुन्न के ऊपर बनाया गया है।
यह हमें तेजी से विश्लेषण और डेटा की सफाई और तैयारी करने की अनुमति देता है। पांडा कई अंतर्निहित विज़ुअलाइज़ेशन सुविधाएँ भी प्रदान करता है जिन्हें हम नीचे देखने जा रहे हैं।
इंस्टॉलेशन
पांडा को स्थापित करने के लिए, अपने टर्मिनल में निम्न कमांड चलाएँ -
pipinstall pandas
या हमारे पास एनाकोंडा है, आप उपयोग कर सकते हैं
condainstall pandas
पांडस-डेटाफ़्रेम
जब हम पांडा के साथ काम कर रहे होते हैं तो डेटा फ्रेम मुख्य उपकरण होते हैं।
कोड -
import numpy as np import pandas as pd from numpy.random import randn np.random.seed(50) df = pd.DataFrame(randn(6,4), ['a','b','c','d','e','f'],['w','x','y','z']) df
आउटपुट
| <वें शैली ="पाठ-संरेखण:केंद्र;">w ||||
a वें> | -1.560352 | -0.030978 | -0.620928 | -1.464580 |
---|---|---|---|---|
b वें> | 1.411946 | -0.476732 | -0.780469 | 1.070268 |
c वें> | -1.282293 | -1.327479 | 0.126338 | 0.862194 |
d वें> | 0.696737 | -0.334565 | -0.997526 | 1.598908 |
e वें> | 3.314075 | 0.987770 | 0.123866 | 0.742785 |
f वें> | -0.393956 | 0.148116 | -0.412234 | -0.160715 |
पंडों-अनुपलब्ध डेटा
हम लापता डेटा इनपांडा से निपटने के कुछ सुविधाजनक तरीके देखने जा रहे हैं, जो स्वचालित रूप से शून्य या नान से भर जाता है।
import numpy as np import pandas as pd from numpy.random import randn d = {'A': [1,2,np.nan], 'B': [9, np.nan, np.nan], 'C': [1,4,9]} df = pd.DataFrame(d) df
आउटपुट
| <वें शैली ="पाठ-संरेखण:केंद्र;" चौड़ाई ="41">ए |||
0 वें> | 1.0 | 9.0 | 1 |
---|---|---|---|
1 वें> | 2.0 | NaN | 4 |
2 वें> | NaN | NaN | 9 |
तो, हमारे पास उपरोक्त में 3 लापता मान हैं।
df.dropna()
| <वें शैली ="पाठ-संरेखण:केंद्र; चौड़ाई:27.8558%;" चौड़ाई ="36">ए |||
0 वें> | 1.0 | 9.0 | 1 |
---|
df.dropna(axis = 1)
| <वें शैली ="पाठ-संरेखण:केंद्र; चौड़ाई:69.8782%;" चौड़ाई ="26">सी |
0 वें> | 1 |
---|---|
1 वें> | 4 |
2 वें> | 9 |
df.dropna(thresh = 2)
| <वें शैली ="पाठ-संरेखण:केंद्र;" चौड़ाई ="36">ए |||
0 वें> | 1.0 | 9.0 | 1 |
---|---|---|---|
1 वें> | 2.0 | NaN | 4 |
df.fillna(value = df.mean())
| <वें शैली ="पाठ-संरेखण:केंद्र;" चौड़ाई ="36">ए |||
0 वें> | 1.0 | 9.0 | 1 |
---|---|---|---|
1 वें> | 2.0 | 9.0 | 4 |
2 वें> | 1.5 | 9.0 | 9 |
पंडस - डेटा आयात करें
हम csv फ़ाइल को पढ़ने जा रहे हैं जो या तो हमारी स्थानीय मशीन में संग्रहीत है (मेरे मामले में) या हम सीधे वेब से प्राप्त कर सकते हैं।
#import pandas library import pandas as pd #Read csv file and assigned it to dataframe variable df = pd.read_csv("SYB61_T03_Population Growth Rates in Urban areas and Capital cities.csv",encoding = "ISO-8859-1") #Read first five element from the dataframe df.head(). से पहले पांच तत्वों को पढ़ें
आउटपुट
हमारे डेटाफ़्रेम या सीएसवी फ़ाइल में पंक्तियों और स्तंभों की संख्या पढ़ने के लिए।
#Countthe number of rows and columns in our dataframe. df.shape
आउटपुट
(4166,9)
पंडों - डेटाफ़्रेम गणित
आँकड़ों के लिए पांडा के विभिन्न उपकरणों का उपयोग करके डेटाफ़्रेम का संचालन किया जा सकता है
#To computes various summary statistics, excluding NaN values df.describe()
आउटपुट
# computes numerical data ranks df.rank()
आउटपुट
.....
.....
पंडों - प्लॉट ग्राफ़
import matplotlib.pyplot as plt years = [1981, 1991, 2001, 2011, 2016] Average_populations = [716493000, 891910000, 1071374000, 1197658000, 1273986000] plt.plot(years, Average_populations) plt.title("Census of India: sample registration system") plt.xlabel("Year") plt.ylabel("Average_populations") plt.show()
आउटपुट
उपरोक्त डेटा का स्कैटर प्लॉट:
plt.scatter(years,Average_populations)
हिस्टोग्राम:
import matplotlib.pyplot as plt Average_populations = [716493000, 891910000, 1071374000, 1197658000, 1273986000] plt.hist(Average_populations, bins = 10) plt.xlabel("Average_populations") plt.ylabel("Frequency") plt.show()
आउटपुट