पायथन डेटा विश्लेषण और विज़ुअलाइज़ेशन के लिए मुख्य रूप से सुन्न, पांडा, मैटप्लोटलिब, सीबॉर्न आदि के लिए कई पुस्तकालय प्रदान करता है। इस खंड में, हम डेटा विश्लेषण और विज़ुअलाइज़ेशन के लिए पांडा पुस्तकालय पर चर्चा करने जा रहे हैं, जो एक खुला स्रोत पुस्तकालय है जो सुन्न के ऊपर बनाया गया है।
यह हमें तेजी से विश्लेषण और डेटा की सफाई और तैयारी करने की अनुमति देता है। पांडा कई अंतर्निहित विज़ुअलाइज़ेशन सुविधाएँ भी प्रदान करता है जिन्हें हम नीचे देखने जा रहे हैं।
इंस्टॉलेशन
पांडा को स्थापित करने के लिए, अपने टर्मिनल में निम्न कमांड चलाएँ -
pipinstall pandas
या हमारे पास एनाकोंडा है, आप उपयोग कर सकते हैं
condainstall pandas
पांडस-डेटाफ़्रेम
जब हम पांडा के साथ काम कर रहे होते हैं तो डेटा फ्रेम मुख्य उपकरण होते हैं।
कोड -
import numpy as np import pandas as pd from numpy.random import randn np.random.seed(50) df = pd.DataFrame(randn(6,4), ['a','b','c','d','e','f'],['w','x','y','z']) df
आउटपुट
| | <वें शैली ="पाठ-संरेखण:केंद्र;">w ||||
| a वें> | -1.560352 | -0.030978 | -0.620928 | -1.464580 |
|---|---|---|---|---|
| b वें> | 1.411946 | -0.476732 | -0.780469 | 1.070268 |
| c वें> | -1.282293 | -1.327479 | 0.126338 | 0.862194 |
| d वें> | 0.696737 | -0.334565 | -0.997526 | 1.598908 |
| e वें> | 3.314075 | 0.987770 | 0.123866 | 0.742785 |
| f वें> | -0.393956 | 0.148116 | -0.412234 | -0.160715 |
पंडों-अनुपलब्ध डेटा
हम लापता डेटा इनपांडा से निपटने के कुछ सुविधाजनक तरीके देखने जा रहे हैं, जो स्वचालित रूप से शून्य या नान से भर जाता है।
import numpy as np
import pandas as pd
from numpy.random import randn
d = {'A': [1,2,np.nan], 'B': [9, np.nan, np.nan], 'C': [1,4,9]}
df = pd.DataFrame(d)
df आउटपुट
| | <वें शैली ="पाठ-संरेखण:केंद्र;" चौड़ाई ="41">ए |||
| 0 वें> | 1.0 | 9.0 | 1 |
|---|---|---|---|
| 1 वें> | 2.0 | NaN | 4 |
| 2 वें> | NaN | NaN | 9 |
तो, हमारे पास उपरोक्त में 3 लापता मान हैं।
df.dropna()
| | <वें शैली ="पाठ-संरेखण:केंद्र; चौड़ाई:27.8558%;" चौड़ाई ="36">ए |||
| 0 वें> | 1.0 | 9.0 | 1 |
|---|
df.dropna(axis = 1)
| | <वें शैली ="पाठ-संरेखण:केंद्र; चौड़ाई:69.8782%;" चौड़ाई ="26">सी |
| 0 वें> | 1 |
|---|---|
| 1 वें> | 4 |
| 2 वें> | 9 |
df.dropna(thresh = 2)
| | <वें शैली ="पाठ-संरेखण:केंद्र;" चौड़ाई ="36">ए |||
| 0 वें> | 1.0 | 9.0 | 1 |
|---|---|---|---|
| 1 वें> | 2.0 | NaN | 4 |
df.fillna(value = df.mean())
| | <वें शैली ="पाठ-संरेखण:केंद्र;" चौड़ाई ="36">ए |||
| 0 वें> | 1.0 | 9.0 | 1 |
|---|---|---|---|
| 1 वें> | 2.0 | 9.0 | 4 |
| 2 वें> | 1.5 | 9.0 | 9 |
पंडस - डेटा आयात करें
हम csv फ़ाइल को पढ़ने जा रहे हैं जो या तो हमारी स्थानीय मशीन में संग्रहीत है (मेरे मामले में) या हम सीधे वेब से प्राप्त कर सकते हैं।
#import pandas library
import pandas as pd
#Read csv file and assigned it to dataframe variable
df = pd.read_csv("SYB61_T03_Population Growth Rates in Urban areas and Capital cities.csv",encoding = "ISO-8859-1")
#Read first five element from the dataframe
df.head() . से पहले पांच तत्वों को पढ़ें आउटपुट

हमारे डेटाफ़्रेम या सीएसवी फ़ाइल में पंक्तियों और स्तंभों की संख्या पढ़ने के लिए।
#Countthe number of rows and columns in our dataframe. df.shape
आउटपुट
(4166,9)
पंडों - डेटाफ़्रेम गणित
आँकड़ों के लिए पांडा के विभिन्न उपकरणों का उपयोग करके डेटाफ़्रेम का संचालन किया जा सकता है
#To computes various summary statistics, excluding NaN values df.describe()
आउटपुट

# computes numerical data ranks df.rank()
आउटपुट

.....
.....

पंडों - प्लॉट ग्राफ़
import matplotlib.pyplot as plt
years = [1981, 1991, 2001, 2011, 2016]
Average_populations = [716493000, 891910000, 1071374000, 1197658000, 1273986000]
plt.plot(years, Average_populations)
plt.title("Census of India: sample registration system")
plt.xlabel("Year")
plt.ylabel("Average_populations")
plt.show() आउटपुट

उपरोक्त डेटा का स्कैटर प्लॉट:
plt.scatter(years,Average_populations)

हिस्टोग्राम:
import matplotlib.pyplot as plt
Average_populations = [716493000, 891910000, 1071374000, 1197658000, 1273986000]
plt.hist(Average_populations, bins = 10)
plt.xlabel("Average_populations")
plt.ylabel("Frequency")
plt.show() आउटपुट
