Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

पांडा डेटाफ़्रेम के साथ प्रसंस्करण समय

इस लेख में, हम अंतर्निहित पांडा पुस्तकालय का उपयोग करके विभिन्न टाइमस्टैम्प बनाने और संसाधित करने के बारे में जानेंगे। हम टाइमस्टैम्प जनरेशन के लिए आवश्यक डेटाबेस को बनाने और संशोधित करने के लिए numpy मॉड्यूल का भी उपयोग कर रहे हैं।

पसंदीदा आईडीई:ज्यूपिटर नोटबुक

इस ट्यूटोरियल को शुरू करने से पहले हमें पांडा और सुन्न पुस्तकालय स्थापित करना होगा। इसके लिए ज्यूपिटर नोटबुक आपके कोड का परीक्षण करने और चलाने के लिए सबसे अच्छी जगह है। पांडा को स्थापित करने के लिए हमें निम्न आदेश चलाना होगा।

>>> pip install pandas

यदि हम इस कमांड को चलाते हैं तो सभी निर्भरताएं स्वचालित रूप से स्थापित हो जाती हैं। इसके पूरा होने के बाद हमें परिवर्तन देखने के लिए कर्नेल को पुनरारंभ करना होगा।

सभी निर्भरताओं को स्थापित करने के बाद हम पांडा को 'पी' के रूप में आयात कर सकते हैं।

यहां हम डेटा फ्रेम कंस्ट्रक्टर को कॉल करते हैं और दिनांक तर्क से अवधि 4 और आवृत्ति 2 घंटे के साथ एक डेटाबेस को इनिशियलाइज़ करते हैं। कुंजी 'समय' निर्दिष्ट करके हम डेटाबेस प्रदर्शित कर रहे हैं।

>>> pip install pandas
>>> import pandas as p
>>> data_struct = p.DataFrame()
>>> data_struct['time'] = p.date_range('14/7/2019', periods = 4, freq='3H')
>>> print(data_struct['time'])
0 2019-07-14 00:00:00
1 2019-07-14 03:00:00
2 2019-07-14 06:00:00
3 2019-07-14 09:00:00
Name: time, dtype: datetime64[ns]

.dt. का उपयोग करके सुविधाओं को निकाला जाता है। हेड () पद्धति का उपयोग करके हम डेटाबेस से सभी पंक्तियों को प्रदर्शित करते हैं।

>>> data_struct['year'] = data_struct['time'].dt.year
>>> data_struct.head(4)
   time
0 2019-07-14 00:00:00 2019
1 2019-07-14 03:00:00 2019
2 2019-07-14 06:00:00 2019
3 2019-07-14 09:00:00 2019

यहां हमने टाइम स्ट्रिंग्स बनाने के लिए numpy मॉड्यूल में मौजूद .array() फंक्शन को लागू किया। इन स्ट्रिंग्स को पांडा लाइब्रेरी में .to_datetime () मेथड का उपयोग करके डेटटाइम में बदल दिया जाता है।

>>> import numpy as n
>>> dt_timestring = n.array(['14-07-2019 07:26 AM', '13-07-2019 11:01 PM'])
>>> timestamps = [p.to_datetime(date, format ="%d-%m-%Y %I:%M %p", errors ="coerce") for date in dt_timestring]
>>> print(timestamps)
[Timestamp('2019-07-14 07:26:00'), Timestamp('2019-07-13 23:01:00')]

यहां हम दिनांक के साथ डेटाबेस को अनुक्रमित कर रहे हैं जिसका अर्थ है कि 'दिनांक' फ़ील्ड को पहले .set_index() विधि का उपयोग करके प्रदर्शित किया जाएगा।

>>> data_struct1 = p.DataFrame()
>>> data_struct1['date'] = p.date_range('18/07/2019', periods = 5, freq ='2H')
>>> data_struct1= data_struct1.set_index(data_struct1['date'])
>>> print(data_struct1.head(5))
   date
date
2019-07-18 00:00:00 2019-07-18 00:00:00
2019-07-18 02:00:00 2019-07-18 02:00:00
2019-07-18 04:00:00 2019-07-18 04:00:00
2019-07-18 06:00:00 2019-07-18 06:00:00
2019-07-18 08:00:00 2019-07-18 08:00:00

यदि हम डेटाबेस से केवल एक विशिष्ट डेटासेट प्रदर्शित करना चाहते हैं तो हम नीचे चर्चा के अनुसार कमांड को लागू कर सकते हैं -

>>> data_struct2 = p.DataFrame()
>>> data_struct2['date'] = p.date_range('17/07/2019', periods =3, freq ='4H')
>>> print(data_struct2.head(5))
   date
0 2019-07-17 00:00:00
1 2019-07-17 04:00:00
2 2019-07-17 08:00:00
>>> inp = data_struct2[(data_struct2['date'] > '2019-07-17 04:00:00')]
>>> print(inp)
   date
2 2019-07-17 08:00:00

निष्कर्ष

इस लेख में, हमने सीखा कि कैसे हम विभिन्न तरीकों से टुपल्स को पैक और अनपैक कर सकते हैं।


  1. पायथन - Matplotlib के साथ पंडों डेटाफ्रेम के लिए एक हिस्टोग्राम प्लॉट करें?

    हिस्टोग्राम डेटा के वितरण का प्रतिनिधित्व है। हिस्टोग्राम प्लॉट करने के लिए, हिस्ट () विधि का उपयोग करें। सबसे पहले, दोनों पुस्तकालयों को आयात करें - import pandas as pd import matplotlib.pyplot as plt 2 कॉलम के साथ डेटाफ़्रेम बनाएं - dataFrame = pd.DataFrame({    "Car": ['B

  1. Matplotlib के साथ पांडस डेटाफ्रेम कैसे प्लॉट करें?

    हम Matplotlib का उपयोग करके पंडों के डेटाफ़्रेम के साथ लाइन ग्राफ़, पाई चार्ट, हिस्टोग्राम आदि को प्लॉट कर सकते हैं। इसके लिए, हमें पंडों और Matplotlib पुस्तकालयों को आयात करने की आवश्यकता है - import pandas as pd import matplotlib.pyplot as plt आइए हम साजिश रचना शुरू करें - लाइन ग्राफ़ उदाहरण निम

  1. पायथन पांडा - डेटाफ़्रेम में सभी NaN तत्वों को 0s . से बदलें

    NaN मानों को बदलने के लिए, fillna() विधि का उपयोग करें। मान लें कि Microsoft Excel में कुछ NaN मानों के साथ खोली गई हमारी CSV फ़ाइल निम्नलिखित है - सबसे पहले, आवश्यक पुस्तकालय आयात करें - import pandas as pd CSV फ़ाइल से डेटा को पंडों के डेटाफ़्रेम में लोड करें - dataFrame = pd.read_csv("C: